# Data Preprocess

## 1. 제공된 데이터 합치기
**<p>2016 ~ 2020년 9월 26일까지의 팀타자/팀투수 파일 통합 </p>**

주최 측에서 제공한 데이터(2016 ~ 2020.07)와 그 이후의 2020년도 경기 데이터(2020.07 ~ 2020.09)를 수집해 기존 파일과 같은 형식으로 처리한 후 투수/타자 데이터로 통합하였다. 
- 수집한 2020년 타자 추가데이터: "../data/2020빅콘테스트_타자_추가데이터.csv"
- 수집한 2020년 투수 추가데이터: "../data/2020빅콘테스트_투수_추가데이터.csv"  

기존데이터와 변수를 통합하기 위해 크롤링한 데이터로 구할 수 없는 column들인 "P2_WHIP_RT"(투수), "CB_WHIP_RT"(투수), "LOB"(타자), "P_AB_CN"(타자), "P_HIT_CN"(타자) 지표는 불가피하게 탈락시켰다.  <br>
예측 해야할 기간에 가장 중요한 영향을 미치는 정보가 예측해야 하는 경기와 가장 가까운 기간에 있는 데이터라고 판단하였기에 위와 같은 조취를 취했다. 
</p>

In [None]:
!pip install pandas
!pip install numpy

In [391]:
import pandas as pd
import numpy as np

pitcher_df_2016 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀투수_2016.csv", encoding="utf-8-sig").drop(["P2_WHIP_RT", "CB_WHIP_RT"], axis = 1)
pitcher_df_2017 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀투수_2017.csv", encoding="utf-8-sig").drop(["P2_WHIP_RT", "CB_WHIP_RT"], axis = 1) 
pitcher_df_2018 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀투수_2018.csv", encoding="utf-8-sig").drop(["P2_WHIP_RT", "CB_WHIP_RT"], axis = 1) 
pitcher_df_2019 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀투수_2019.csv", encoding="utf-8-sig").drop(["P2_WHIP_RT", "CB_WHIP_RT"], axis = 1) 
pitcher_df_2020 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀투수_2020.csv", encoding="utf-8-sig").drop(["P2_WHIP_RT", "CB_WHIP_RT"], axis = 1) 
pitcher_new = pd.read_csv("../data/2020빅콘테스트_타자_추가데이터.csv", encoding="utf-8-sig") 
pitcher_df = pd.concat([pitcher_df_2016, pitcher_df_2017, pitcher_df_2018, pitcher_df_2019, pitcher_df_2020, pitcher_new])

hitter_df_2016 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀타자_2016.csv", encoding="utf-8-sig").drop(["LOB", "P_AB_CN", "P_HIT_CN"], axis = 1) 
hitter_df_2017 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀타자_2017.csv", encoding="utf-8-sig").drop(["LOB", "P_AB_CN", "P_HIT_CN"], axis = 1) 
hitter_df_2018 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀타자_2018.csv", encoding="utf-8-sig").drop(["LOB", "P_AB_CN", "P_HIT_CN"], axis = 1) 
hitter_df_2019 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀타자_2019.csv", encoding="utf-8-sig").drop(["LOB", "P_AB_CN", "P_HIT_CN"], axis = 1) 
hitter_df_2020 = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀타자_2020.csv", encoding="utf-8-sig").drop(["LOB", "P_AB_CN", "P_HIT_CN"], axis = 1) 
hitter_new = pd.read_csv("../data/2020빅콘테스트_투수_추가데이터.csv", encoding="utf-8-sig") 
hitter_df = pd.concat([hitter_df_2016, hitter_df_2017, hitter_df_2018, hitter_df_2019, hitter_df_2020, hitter_new])

## 2. 데이터 전처리하기
### 2-1. T_ID 기준 데이터 전처리
**투수 변수와 타자 변수 분리**

<p>투수 지표와 타자 지표에서 겹치는 column을 구분하기 위해서 타자 지표 앞에는 h_, 투수 지표 앞에는 p_를 붙인 후 파일을 합치는 작업을 수행했다.<br>
식별을 쉽게 해주기 위해서 해당 경기의 진행년도 열을 YEAR라는 이름으로 추가하였다. <br> 
GAME ID와 GAME DAY, HEADER 경기 여부 등은는 팀타자, 팀투수 파일에 모두 있기 때문에 중복되지 않게 하였다. 
</p>

In [1]:
# 데이터 column 순서 맞춰주기
pitcher_df=pitcher_df[['G_ID','GDAY_DS', 'T_ID', 'VS_T_ID', 'HEADER_NO', 'TB_SC', 'CG_CK', 'WLS', 'HOLD', 'INN2', 'BF', 'PA', 'AB', 'HIT', 'H2', 'H3',
 'HR', 'SB', 'CS', 'SH', 'SF', 'BB', 'IB', 'HP', 'KK', 'GD', 'WP', 'BK', 'ERR', 'R', 'ER', 'P_WHIP_RT']]

hitter_df=hitter_df[['G_ID', 'GDAY_DS', 'T_ID', 'VS_T_ID', 'HEADER_NO', 'TB_SC', 'PA', 'AB', 'RBI', 'RUN', 'HIT', 'H2', 'H3', 'HR', 'SB',
 'CS', 'SH', 'SF', 'BB', 'IB', 'HP', 'KK', 'GD', 'ERR', 'P_HRA_RT']]

NameError: name 'pitcher_df' is not defined

In [5]:
# 투수 데이터 전처리
pitcher_df["TB_SC"][pitcher_df["TB_SC"] == "B"] = 1
pitcher_df["TB_SC"][pitcher_df["TB_SC"] == "T"] = 0
# pitcher_df["WLS"][pitcher_df["WLS"] == "W"] = 1
# pitcher_df["WLS"][pitcher_df["WLS"] == "L"] = 0
# pitcher_df["WLS"][pitcher_df["WLS"] == "D"] = -1
p_columns = list(pitcher_df.columns)
front_lst = p_columns[:5]
back_lst = p_columns[5:]
back_lst = ["p_" + column for column in back_lst]
p_columns = front_lst + back_lst
pitcher_df.columns = p_columns

# 타자 데이터 전처리
hitter_df.drop(["G_ID", "GDAY_DS", "T_ID", "VS_T_ID", "TB_SC", "HEADER_NO"], axis=1, inplace=True)
h_columns = list(hitter_df.columns)
h_columns = ["h_" + column for column in h_columns]
hitter_df.columns = h_columns
df = pd.concat([pitcher_df, hitter_df], axis=1)
df.rename(columns={"p_WLS":"WLS"}, inplace=True)

# YEAR 데이터 추가
dates = df["GDAY_DS"].to_list()
year = ["".join(list(str(date))[:4]) for date in dates ]
df["YEAR"] = year

# 인덱스 순서 변경
df_columns = list(df.columns)
df_columns_reindex = df_columns[:4] + [df_columns[7]] + [df_columns[-1]] + df_columns[4:7] + df_columns[8:-1]
df = df[df_columns_reindex] 
df.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  
A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  This is separate from the ipykernel package so we can avoid doing imports until


Unnamed: 0,G_ID,GDAY_DS,T_ID,VS_T_ID,WLS,YEAR,HEADER_NO,p_TB_SC,p_CG_CK,p_HOLD,...,h_CS,h_SH,h_SF,h_BB,h_IB,h_HP,h_KK,h_GD,h_ERR,h_P_HRA_RT
0,20160401HHLG0,20160401,LG,HH,W,2016,0,1,0.0,0.0,...,1.0,1.0,0.0,4.0,0.0,0.0,11.0,0.0,0.0,0.333333
1,20160401HHLG0,20160401,HH,LG,L,2016,0,0,0.0,0.0,...,0.0,3.0,0.0,3.0,0.0,0.0,10.0,1.0,2.0,0.2
2,20160401HTNC0,20160401,NC,HT,W,2016,0,1,0.0,0.0,...,0.0,1.0,0.0,5.0,0.0,0.0,9.0,1.0,1.0,0.142857
3,20160401HTNC0,20160401,HT,NC,L,2016,0,0,0.0,0.0,...,0.0,0.0,0.0,3.0,0.0,1.0,10.0,1.0,0.0,0.1
4,20160401KTSK0,20160401,SK,KT,L,2016,0,1,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,7.0,1.0,1.0,0.375


### 2-2. VS_T_ID 기준 데이터 전처리
**상대팀의 경기력을 나타내는 변수 추가**  

<p> T_ID 기준으로 경기 경기의 결과(방어율, 타율, 승률)가 상대방의 경기력에 영향을 받는다고 판단하여 VS_T_ID(상대편)의 경기 정보를 추가했다. 상대방 또한 같은 이름의 columns를 가지고 있기 때문에 앞에 "vs_"를 붙여서 각 줄에 추가하였다.  
</p>

In [6]:
df_vs = df.copy()
df_vs.drop(["WLS", "HEADER_NO"],axis=1, inplace=True)

merge_col = list(df.columns)[:4] + [list(df.columns)[5]]
df_vs_col = list(df.columns)[7:]
vs_rename_col_dict = dict()

for i in df_vs_col:
    vs_rename_col_dict[i] = 'vs_'+i

vs_rename_col_dict["T_ID"] = 'VS_T_ID'
vs_rename_col_dict["VS_T_ID"] = "T_ID"

df_vs = df_vs.rename(columns = vs_rename_col_dict)

df = pd.merge(df, df_vs, how = 'left', left_on = merge_col, right_on = merge_col)

## 3. 팀기준 24경기씩 그룹핑 및 data augmentation 진행
**- 팀별 후반 경기(약 24경기)의 타겟값을 바로 이전 24경기에서의 경기력을 이용해 예측**  

**- 그룹핑으로 인한 데이터 감소로 augmentation을 진행해 학습 데이터 부족 문제 해결**


##### <데이터 전처리 결정 과정>
- 1) 주어진 주제: 정규시즌 <strong>잔여 경기</strong>에 대한 각 팀별 승률, 타율, 방어율 예측
- 2) 팀별로 값을 예측해야 함 -> 한 시즌 동안 각 구단마다 총 144경기를 진행
- 3) 대회 종료일(9.29)기준 팀별로 144경기 중 후반부 24경기가 잔여경기로 포함될 것이라 판단(+ 경기취소 고려)  
   - (제공된 데이터에 대한 전처리)

|연도|팀별 총 경기 수 |전처리방법|
|:-:|:-:|:-:|
|2016 ~ 2019|144|전반 120경기를 24경기씩 묶어(총 5그룹) 모델을 학습시킨 후 후반 24경기 타겟값 예측|
|2020|약 64|40경기, 24경기로 구분 후 전반 40경기를 24경기씩 묶어(약 1그룹) 모델을 학습시킨 후 후반 24경기 타겟값 예측|

- 4) 발생한 문제점: <strong>충분한 데이터 확보 불가능</strong>
  - ex) 한 시즌 기준으로 최대 60 row(각 팀당 6그룹 * 10구단)만 생성가능
  - 데이터가 충분하지 않은 상태에서 모델을 학습시키면 모델이 일반화되기 어려움(오버피팅/언더피팅의 가능성이 모두 존재)

- 5) 해결방안: <strong>Data Augmentation</strong>
  - Augmentation: 모델을 충분히 훈련하는 데 필요한 데이터를 확보하는 기법
  - 24경기씩 묶기 때문에 그룹핑하는 시작점에 따라 상대팀 구성비율 및 변수값이 변하므로 다른 데이터셋으로 이용할 수 있다고 판단
  - ex)   
    Case1: train = [1 2 ... 23 24] -> predict = [25 26 ... 47 48]  
    Case2: train = [2 3 ... 24 25] -> predict = [26 27 ... 48 49]  
    <strong>※ 데이터를 늘릴 때 주의할 점</strong>: train/test 구분 없이 모든 데이터에 대해 augmentation을 진행하면 예측해야 하는 값(test)과 유사한 값들이 모델에 학습되어 오버피팅이 발생할 수 있음. 따라서 모델의 일반화되기 위해 데이터를 늘리기 전, train과 test를 미리 구분한 후 train에 대해서만 적용

### 3-1. column 분류
**size와 sum 그룹계산을 진행하기 위해 column 분류**

24경기씩 묶어서 변수를 계산하기 위해 그룹함수(sum, size)를 적용한다. 이때, 승률계산 시 24그룹 내 각 경기에서 'WLS'변수 각각의 총 개수를 구해야 하므로 size를 적용해야하고 나머지 변수에는 sum을 적용해야 한다. 이를 나누어 계산하기 위해 각 그룹함수에 맞는 column을 분류했다.
- size_df: 승패
- sum_df: 나머지 변수

In [7]:
data_col = list(df.columns)
team = list(df.T_ID.unique())

default_col = ['G_ID', 'GDAY_DS', 'T_ID', 'VS_T_ID', "YEAR"]
size_col = ['WLS']
sum_col = list(df.columns)[6:]

tmp = set(default_col)|set(size_col)|set(sum_col)
size_df = df[default_col + size_col]
sum_df = df[default_col + sum_col]

### 3-2. Size & Sum
**24그룹 내 변수 값을 계산하기 위해 필요한 함수 정의**

- make_pct: df와 ver(VS_T_ID고려 여부)를 입력받아 승률을 개수를 계산함
- make_sum: df와 ver(VS_T_ID고려 여부, 홈팀 계산 적용여부)를 입력받아 합계를 계산함
- caculate_df: df, valid_year(validation에 사용될 연도), key(몇 경기씩 묶을 것인지), sc(크기, 합계, vs적용합계 여부), ver(누적/비누적 여부)를 입력받아 key경기씩 묶어 계산한 후 augmentation을 진행한다.

In [59]:
# ver='t': VS_T_ID고려안함 & ver='vs': VS_T_ID고려
def make_pct(df, ver='t'):
    col1 = ["T_ID","WLS","YEAR"]
    col2 = ["T_ID","YEAR"]
    if ver=='vs':
        col1.append("VS_T_ID")
        col2.append("VS_T_ID")
        
    tmp = pd.DataFrame({"COUNT":df.groupby(col1).size()}).pivot_table("COUNT",col2,"WLS").reset_index().sort_values(["YEAR","T_ID"]).reset_index(drop=True)
    tmp.fillna(0,inplace= True)

    if "L" not in list(tmp.columns):
        tmp["L"] = 0

    if "W" not in list(tmp.columns):
        tmp["W"] = 0
    
    tmp["PCT"] = tmp['W']/(tmp['W']+tmp['L'])
    return tmp

In [440]:
def make_sum(df, ver='t'):
    col = ["T_ID","YEAR"]
    if ver == 'vs':
        col.append("VS_T_ID")
    if ver == 'home':
        col.remove('YEAR')
    
    tmp = df.groupby(col).sum().reset_index()
    return tmp

In [67]:
# ver='c': 누적데이터 & ver='o':순수데이터

def calculate_df(df, valid_year, key, sc='sum', ver='o'):

    df_cal = pd.DataFrame([])

    for y in [2016,2017,2018,2019,2020]:
        print("===",y)
        y_tmp = df[df["YEAR"]==str(y)]
        for t in team:
            print(t)
            
            ttmp_df = y_tmp[y_tmp["T_ID"]==t]
            tmp_size = len(ttmp_df)

            #validset
            if y in valid_year:
                if ver == 'c':
                    test_tmp_df = ttmp_df.iloc[:tmp_size-key,:]
                else:
                    test_tmp_df = ttmp_df.iloc[tmp_size-key:,:]
                    
                if sc == 'size':
                    tmp2 = make_pct(test_tmp_df)
                elif sc == 'sum_ae':
                    tmp2 = make_sum(test_tmp_df,'vs')
                else:
                    tmp2 = make_sum(test_tmp_df)
                tmp2['IDX'] = 777
                tmp2['MERGE_IDX'] = 0

                df_cal = pd.concat([df_cal, tmp2], axis = 0)

            # trainset
            if y in valid_year: # valid_data인 경우->120개 이용
                tmp_df = ttmp_df.iloc[:tmp_size-key,:]
                t_size = len(tmp_df)
            else: # train_data인 경우->전체 데이터이용
                tmp_df = ttmp_df.copy()
                t_size = len(tmp_df)
            
            idx = 0
            m_idx = 1
            while idx < key:
                k_idx = 1
                for k in range((t_size-idx)//key):
                    
                    if ver == 'c':
                        tmp1 = tmp_df.iloc[:key*(k+1)+idx,:]
                    else:
                        tmp1 = tmp_df.iloc[key*k+idx:key*(k+1)+idx,:]
                    
                    if sc == 'size':
                        tmp2 = make_pct(tmp1)
                    elif sc == 'sum_ae':
                        tmp2 = make_sum(tmp1,'vs')
                    else:
                        tmp2 = make_sum(tmp1)
                        
                    tmp2['IDX'] = k_idx 
                    tmp2['MERGE_IDX'] = m_idx

                    k_idx += 1
                    m_idx += 1

                    df_cal = pd.concat([df_cal, tmp2], axis = 0)
                idx += 1
                
    if sc == 'size':
        df_cal.drop(["W","D","L"], axis = 1, inplace = True)
    
    df_cal = df_cal.sort_values(by=["YEAR","T_ID","MERGE_IDX"]).reset_index(drop = True)
    return df_cal

## 4. 추가 데이터 생성
**HOME비율/상대팀 구성비율, 누적 상대타율/방어율 계산**  

PCT/AVG/ERA의 입력 변수에 각 그룹(24경기) 내에서 T_ID팀이 HOME팀이었던 경우의 합(ISHOME)과 상대팀 구성비율(c_00)을 추가하기 위해 전처리에 필요한 변수만 추출한 임시 테이블을 생성했다.  
<br>
상대 팀(VS_T_ID)에 대한 누적 상대 타율/방어율을 계산해 AVG/ERA 입력변수에 추가하기 위해 전처리에 필요한 변수만 추출한 임시 테이블을 생성했다.

### 4-1. HOME팀 및 상대팀 구성 비율  

T_ID를 기준으로 홈팀이었으면 1, 아니면 0의 값을 가지는 'ISHOME'변수를 추가한 후, 필요한 변수가 담긴 테이블을 추출한다.

In [35]:
df_new = pd.concat([df, pd.get_dummies(df.VS_T_ID)], axis = 1)

for i in range(len(df_new)):
    if df_new.loc[i,'T_ID'] == df_new.loc[i,"G_ID"][10:12]:
        df_new.loc[i,'ISHOME'] = 1
    else:
        df_new.loc[i,'ISHOME'] = 0
        
df_new["ISHOME"] = df_new["ISHOME"].astype(np.int64)

home_n_vs_df = df_new[["G_ID","YEAR","T_ID","VS_T_ID","ISHOME"]+team]

### 4-2. 누적 상대타율/방어율  

누적 타율, 방어율 계산을 위한 변수와 기본 정보가 담긴 테이블을 추출한다.

In [62]:
def_col = ['G_ID','T_ID', 'VS_T_ID',"YEAR"]
ae_col = ['p_INN2', 'p_ER', 'h_HIT','h_AB']
ae_df = df[def_col + ae_col]

ae_df

### 4-3. 데이터 생성  

홈팀합계/상대팀 구성비율 및 누적 타율/방어율을 계산해 데이터를 생성한다.

In [225]:
year = [2016,2017,2018,2019]

Home_VS_lst = []

cteam_AVG_lst = []
cteam_ERA_lst = []

for y in year:
    valid_y = year[:]
    valid_y.remove(y)
    
    # home and vs_count
    cal_h_vs_df = calculate_df(home_n_vs_df, valid_y, 24, sc='sum', ver='o')
    cal_h_vs_df_c = cal_h_vs_df.add_prefix('c_').iloc[:,3:13]
    cal_h_vs_df_c = cal_h_vs_df_c/24
    cal_hvs_df = pd.concat([cal_h_vs_df.iloc[:,[0,1,2,13,14]],cal_h_vs_df_c],axis=1)
    
    Home_VS_lst.append(cal_hvs_df)

    # cumulate vs era & vs avg
    cal_ae_df = calculate_df(ae_df,valid_y ,24, sc='sum_ae', ver='c')

    cal_ae_df["ERA"] = (9 * cal_ae_df["p_ER"]) / (cal_ae_df["p_INN2"] / 3)
    cal_ae_df["AVG"] = (cal_ae_df["h_HIT"] / cal_ae_df["h_AB"])

    cul_t_avg_df = cal_ae_df.drop(["ERA"]+ae_col,axis=1)
    cul_t_era_df = cal_ae_df.drop(["AVG"]+ae_col,axis=1)
    
    cul_avg_df = cul_t_avg_df.pivot_table('AVG', ['T_ID', 'YEAR', 'IDX', 'MERGE_IDX'], 'VS_T_ID').reset_index().sort_values(by =["YEAR","T_ID","MERGE_IDX"]).reset_index(drop = True).fillna(0)
    cul_era_df = cul_t_era_df.pivot_table('ERA', ['T_ID', 'YEAR', 'IDX', 'MERGE_IDX'], 'VS_T_ID').reset_index().sort_values(by =["YEAR","T_ID","MERGE_IDX"]).reset_index(drop = True).fillna(0)

    ca = cul_avg_df.iloc[:,-10:].add_prefix('a_')
    ce = cul_era_df.iloc[:,-10:].add_prefix('e_')
    
    cteam_AVG_lst.append(ca)
    cteam_ERA_lst.append(ce)
    

=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
K

## 5. 데이터 합치면서 세이버매트릭스 변환  
**기본 변수를 세이버매트릭스를 이용해 변환하여 모델 입력값 생성**

주어진 기본 변수를 활용하기에는 차원이 커지고 유의미하지 않은 변수가 섞여 모델이 제대로 학습되지 않을 수 있으므로, 세이버 매트릭스를 적용해 보다 유용한 변수를 계산하는 과정을 거쳤다.

- <strong>합계한 column으로 세이버매트릭스 적용하는 이유</strong> : 각 경기마다 세이버매트릭스로 변환해 24경기로 평균을 구한 값과, 24경기 동안 나온 결과들을 합쳐 세이버매트릭스로 변환한 값의 오차가 발생하여 합계 후 세이버매트릭스 변환을 적용하게 됨



### 5-1. 세이버매트릭스 변환 함수

In [272]:
# 공통 부분
# T_ID, YEAR, PCT, IDX, MERGE_IDX

# T_ID 팀
# p_CG_CK, p_HOLD, p_INN2, p_BF, p_PA, p_AB, p_HIT, p_H2, p_H3
# p_HR, p_SB, p_CS, p_SH, p_SF, p_BB, p_IB, p_HP, p_KK, p_GD, p_WP, p_BK, p_ERR, p_R, p_ER, p_P_WHIP_RT, p_P2_WHIP_RT
# p_CB_WHIP_RT, h_PA, h_AB, h_RBI, h_RUN, h_HIT, h_H2, h_H3, h_HR, h_SB, h_CS, h_SH, h_SF, h_BB, h_IB, h_HP, h_KK
# h_GD, h_ERR, h_LOB, h_P_HRA_RT, h_P_AB_CN, h_P_HIT_CN

# vs_T_ID 팀 (vs_만 붙이면 같음)

'''
@ Augment를 세이버매트릭스로 변환하기 전 주의사항
1. P_WHIP_RT, P2_WHIP_RT, CB_WHIP_RT, P_HRA_RT를 그대로 누적했는데 그대로 누적해서
사용하면 안되는 값이다.
- 값이 너무 커서 일단 24로 나눠서 경기 당 평균값으로 만들었다
- RC도 값이 커서 24로 나눠서 경기 당 평균값으로 만들었다.

2.변환 이후 정규화

3.이닝 수, 득점, 타수, 실점 기록 추가가 필요할까..? (승률에서는 일단 제외)
'''


def convert_attribute(df, ver ='tv'):
    #column

    new_index = ["T_ID", "YEAR", "PCT", "IDX", "MERGE_IDX",
             "WHIP", "LOB", "ERA", "FIP", "H_9", "K_9", "BB_9", "HR_9",
             "AVG", "oAVG", "SLG", "oSLG", "OBP", "oOBP", "P_WHIP_RT",
             "OPS", "oOPS", "RC", "GPA", "SECA", "TA", "ISO", "oISO", "wOBA", "P_HRA_RT", "DER",
             "vs_WHIP", "vs_LOB", "vs_ERA", "vs_FIP", "vs_H_9", "vs_K_9", "vs_BB_9", "vs_HR_9",
             "vs_AVG", "vs_oAVG", "vs_SLG", "vs_oSLG", "vs_OBP", "vs_oOBP", "vs_P_WHIP_RT",
             "vs_OPS", "vs_oOPS", "vs_RC", "vs_GPA", "vs_SECA", "vs_TA", "vs_ISO", "vs_oISO", "vs_wOBA", "vs_P_HRA_RT", "vs_DER"]
    
    if ver == 'test':
        new_index.remove("IDX")
        new_index.remove("MERGE_IDX")
        
    
    #시작
    new_df = pd.DataFrame(columns = new_index)
    
    # 공통 부분T_ID, YEAR, PCT, IDX, MERGE_IDX
    new_df["T_ID"] = df["T_ID"]
    new_df["YEAR"] = df["YEAR"]
    new_df["PCT"] = df["PCT"]
    
    if ver != 'test':
        new_df["IDX"] = df["IDX"]
        new_df["MERGE_IDX"] = df["MERGE_IDX"]
    
    
    # 자주 사용되는 변환 값
    p_H1 = (df["p_HIT"] - df["p_H2"] - df["p_H3"] - df["p_HR"]) #피 1루타
    h_H1 = (df["h_HIT"] - df["h_H2"] - df["h_H3"] - df["h_HR"]) #1 루타
    RC_A = (df["h_HIT"] + df["h_BB"] - df["h_CS"] + df["h_HP"] - df["h_GD"]) #출루능력
    RC_B = 0.24 * (df["h_BB"] - df["h_IB"] + df["h_HP"]) + (0.62 * df["h_SB"]) + 0.5 * (df["h_SH"] + df["h_SF"]) - 0.03 * df["h_KK"] #진루능력
    RC_C = (df["h_AB"] + df["h_BB"] + df["h_HP"] + df["h_SH"] + df["h_SF"]) #주어진 기회
    
    vs_p_H1 = (df["vs_p_HIT"] - df["vs_p_H2"] - df["vs_p_H3"] - df["vs_p_HR"]) #피 1루타
    vs_h_H1 = (df["vs_h_HIT"] - df["vs_h_H2"] - df["vs_h_H3"] - df["vs_h_HR"]) #1 루타
    vs_RC_A = (df["vs_h_HIT"] + df["vs_h_BB"] - df["vs_h_CS"] + df["vs_h_HP"] - df["vs_h_GD"]) #출루능력
    vs_RC_B = 0.24 * (df["vs_h_BB"] - df["vs_h_IB"] + df["vs_h_HP"]) + (0.62 * df["vs_h_SB"]) + 0.5 * (df["vs_h_SH"] + df["vs_h_SF"]) - 0.03 * df["vs_h_KK"] #진루능력
    vs_RC_C = (df["vs_h_AB"] + df["vs_h_BB"] + df["vs_h_HP"] + df["vs_h_SH"] + df["vs_h_SF"]) #주어진 기회
    #----------------------- T_ID
    new_df["WHIP"] = (df["p_HIT"] + df["p_BB"]) / (df["p_INN2"] / 3)
    new_df["LOB"] = (df["p_HIT"] + df["p_BB"] + df["p_HP"] - df["p_R"]) / (df["p_HIT"] + df["p_BB"] + df["p_HP"] - (1.4 * df["p_HR"]))
    new_df["ERA"] = (9 * df["p_ER"]) / (df["p_INN2"] / 3)
    new_df["FIP"] = ((13 * df["p_HR"]) + (3 * (df["p_BB"] + df["p_HP"] - df["p_IB"])) - (2 * df["p_KK"])) / (df["p_INN2"] / 3)
    new_df["H_9"] = (9 * df["p_HIT"]) / (df["p_INN2"] / 3)
    new_df["K_9"] = (9 * df["p_KK"]) / (df["p_INN2"] / 3)
    new_df["BB_9"] = (9 * df["p_BB"]) / (df["p_INN2"] / 3)
    new_df["HR_9"] = (9 * df["p_HR"]) / (df["p_INN2"] / 3)
    new_df["AVG"] = (df["h_HIT"] / df["h_AB"])
    new_df["oAVG"] = (df["p_HIT"] / (df["p_PA"] - df["p_BB"] - df["p_HP"] - df["p_SF"] - df["p_SB"]))
    new_df["SLG"] = (h_H1 + df["h_H2"] * 2 + df["h_H3"] * 3 + df["h_HR"] * 4) / (df["h_AB"])
    new_df["oSLG"] = (p_H1 + (2 * df["p_H2"]) + (3 * df["p_H3"]) + (4 * df["p_HR"])) / (df["p_PA"] - df["p_BB"] - df["p_HP"] - df["p_SF"] - df["p_SB"])
    new_df["OBP"] = (df["h_HIT"] + df["h_BB"] + df["h_HP"]) / (df["h_AB"] + df["h_BB"] + df["h_HP"] + df["h_SF"])
    new_df["oOBP"] = (df["p_HIT"] + df["p_BB"]) / (df["p_AB"] + df["p_BB"] + df["p_HP"] + df["p_SF"])
    new_df["P_WHIP_RT"] = (df["p_P_WHIP_RT"] / 24) 
    new_df["OPS"] = (new_df["OBP"] + new_df["SLG"])
    new_df["oOPS"] = (new_df["oOBP"] + new_df["oSLG"])
    new_df["RC"] = (((2.4 * RC_C + RC_A) * (3 * RC_C + RC_B)) / (9 * RC_C) - (0.9 * RC_C)) / 24
    new_df["GPA"] = ((1.8 * new_df["OBP"] + new_df["SLG"]) / 4)
    new_df["SECA"] = (((df["h_H2"] * 2) + (df["h_H3"] * 3) + (df["h_HR"] * 4) + df["h_BB"] + (df["h_SB"] - df["h_CS"])) / df["h_AB"])
    new_df["TA"] = ((h_H1 + (df["h_H2"] * 2) + (df["h_H3"] * 3) + (df["h_HR"] * 4) + df["h_HP"] + df["h_BB"] + df["h_SB"]) / (df["h_AB"] - df["h_HIT"] + df["h_CS"] + df["h_GD"]))
    new_df["ISO"] = (new_df["SLG"] - new_df["AVG"])
    new_df["oISO"] = (new_df["oSLG"] - new_df["oAVG"])
    new_df["wOBA"] = ((0.7 * (df["h_BB"] - df["h_IB"]) + (0.73 * df["h_HP"]) + (0.89 * h_H1) + (1.27 * df["h_H2"]) + (1.61 * df["h_H3"]) + (2.07 * df["h_HR"]) + (0.25 * df["h_SB"]) -
                (0.5 * df["h_CS"])) / (df["h_AB"] - df["h_IB"]))
    new_df["P_HRA_RT"] = df["h_P_HRA_RT"] 
    new_df["DER"] = ((df["p_PA"] - df["p_HIT"] - df["p_KK"] - df["p_BB"] - df["p_HP"] - df["p_IB"] - df["p_BK"]) / (df["p_PA"] - df["p_HR"] - df["p_KK"] - df["p_BB"] - df["p_HP"]))
    
    
    #----------------------- vs_T_ID
    new_df["vs_WHIP"] = (df["vs_p_HIT"] + df["vs_p_BB"]) / (df["vs_p_INN2"] / 3)
    new_df["vs_LOB"] = (df["vs_p_HIT"] + df["vs_p_BB"] + df["vs_p_HP"] - df["vs_p_R"]) / (df["vs_p_HIT"] + df["vs_p_BB"] + df["vs_p_HP"] - (1.4 * df["vs_p_HR"]))
    new_df["vs_ERA"] = (9 * df["vs_p_ER"]) / (df["vs_p_INN2"] / 3)
    new_df["vs_FIP"] = ((13 * df["vs_p_HR"]) + (3 * (df["vs_p_BB"] + df["vs_p_HP"] - df["vs_p_IB"])) - (2 * df["vs_p_KK"])) / (df["vs_p_INN2"] / 3)
    new_df["vs_H_9"] = (9 * df["vs_p_HIT"]) / (df["vs_p_INN2"] / 3)
    new_df["vs_K_9"] = (9 * df["vs_p_KK"]) / (df["vs_p_INN2"] / 3)
    new_df["vs_BB_9"] = (9 * df["vs_p_BB"]) / (df["vs_p_INN2"] / 3)
    new_df["vs_HR_9"] = (9 * df["vs_p_HR"]) / (df["vs_p_INN2"] / 3)
    new_df["vs_AVG"] = (df["vs_h_HIT"] / df["vs_h_AB"])
    new_df["vs_oAVG"] = (df["vs_p_HIT"] / (df["vs_p_PA"] - df["vs_p_BB"] - df["vs_p_HP"] - df["vs_p_SF"] - df["vs_p_SB"]))
    new_df["vs_SLG"] = (vs_h_H1 + df["vs_h_H2"] * 2 + df["vs_h_H3"] * 3 + df["vs_h_HR"] * 4) / (df["vs_h_AB"])
    new_df["vs_oSLG"] = (vs_p_H1 + (2 * df["vs_p_H2"]) + (3 * df["vs_p_H3"]) + (4 * df["vs_p_HR"])) / (df["vs_p_PA"] - df["vs_p_BB"] - df["vs_p_HP"] - df["vs_p_SF"] - df["vs_p_SB"])
    new_df["vs_OBP"] = (df["vs_h_HIT"] + df["vs_h_BB"] + df["vs_h_HP"]) / (df["vs_h_AB"] + df["vs_h_BB"] + df["vs_h_HP"] + df["vs_h_SF"])
    new_df["vs_oOBP"] = (df["vs_p_HIT"] + df["vs_p_BB"]) / (df["vs_p_AB"] + df["vs_p_BB"] + df["vs_p_HP"] + df["vs_p_SF"])
    new_df["vs_P_WHIP_RT"] = (df["vs_p_P_WHIP_RT"] / 24) 
    new_df["vs_OPS"] = (new_df["vs_OBP"] + new_df["vs_SLG"])
    new_df["vs_oOPS"] = (new_df["vs_oOBP"] + new_df["vs_oSLG"])
    new_df["vs_RC"] = (((2.4 * vs_RC_C + vs_RC_A) * (3 * vs_RC_C + vs_RC_B)) / (9 * vs_RC_C) - (0.9 * vs_RC_C)) / 24
    new_df["vs_GPA"] = ((1.8 * new_df["vs_OBP"] + new_df["vs_SLG"]) / 4)
    new_df["vs_SECA"] = (((df["vs_h_H2"] * 2) + (df["vs_h_H3"] * 3) + (df["vs_h_HR"] * 4) + df["vs_h_BB"] + (df["vs_h_SB"] - df["vs_h_CS"])) / df["vs_h_AB"])
    new_df["vs_TA"] = ((h_H1 + (df["vs_h_H2"] * 2) + (df["vs_h_H3"] * 3) + (df["vs_h_HR"] * 4) + df["vs_h_HP"] + df["vs_h_BB"] + df["vs_h_SB"]) / (df["vs_h_AB"] - df["vs_h_HIT"] + df["vs_h_CS"] + df["vs_h_GD"]))
    new_df["vs_ISO"] = (new_df["vs_SLG"] - new_df["vs_AVG"])
    new_df["vs_oISO"] = (new_df["vs_oSLG"] - new_df["vs_oAVG"])
    new_df["vs_wOBA"] = ((0.7 * (df["vs_h_BB"] - df["vs_h_IB"]) + (0.73 * df["vs_h_HP"]) + (0.89 * vs_h_H1) + (1.27 * df["vs_h_H2"]) + (1.61 * df["vs_h_H3"]) + (2.07 * df["vs_h_HR"]) + (0.25 * df["vs_h_SB"]) -
                (0.5 * df["vs_h_CS"])) / (df["vs_h_AB"] - df["vs_h_IB"]))
    new_df["vs_P_HRA_RT"] = (df["vs_h_P_HRA_RT"] / 24)
    new_df["vs_DER"] = ((df["vs_p_PA"] - df["vs_p_HIT"] - df["vs_p_KK"] - df["vs_p_BB"] - df["vs_p_HP"] - df["vs_p_IB"] - df["vs_p_BK"]) / (df["vs_p_PA"] - df["vs_p_HR"] - df["vs_p_KK"] - df["vs_p_BB"] - df["vs_p_HP"]))

    
    #new_df.to_csv("convert_temp.csv") 파일로 변환해서 확인해봤습니다.
    return new_df


### 5-2. 데이터 계산 및 합치기
**실제 데이터에 대해 함수 적용**  

데이터 개수가 적은 문제를 해결하기 위해 data augmentation을 적용하였다.  
<br>
Validation set으로 모든 시즌에 대해 각 팀의 후반부 24경기를 이용할 경우 모델에 후반부 데이터가 전혀 반영되지 않는 점이 우려되었다. 따라서 2020년도 데이터는 모두 train data로 사용하되, 2016~2019데이터를 1:3으로 분류하여 1을 train으로, 3의 후반부 데이터를 validatoin으로 이용해 총 4번의 교차검증을 진행하여 모델의 성능을 판단하기로 결정했다.
<br><br>
PCT에 누적없는 데이터를 이용하고, AVG/ERA에는 누적 데이터를 사용하므로 두 데이터 형식을 모두 계산하였다.

In [112]:
year = [2016,2017,2018,2019]
orig_data = []
cumul_data = []

for y in year:
    valid_y = year[:]
    valid_y.remove(y)
    
    # 누적X
    size_df_cal1 = calculate_df(size_df, valid_y, 24, 'size', ver='o')
    sum_df_cal1 = calculate_df(sum_df, valid_y, 24, 'sum', ver='o')
    merge_df1 = pd.merge(size_df_cal1, sum_df_cal1, how= 'left', left_on = ['T_ID',"YEAR","MERGE_IDX","IDX"], right_on  = ['T_ID',"YEAR","MERGE_IDX","IDX"])

    conv1 = convert_attribute(merge_df1)
    orig_data.append(conv1)
    
    # 누적O
    size_df_cal2 = calculate_df(size_df, valid_y, 24, 'size', ver='c')
    sum_df_cal2 = calculate_df(sum_df, valid_y, 24, 'sum', ver='c')
    merge_df2 = pd.merge(size_df_cal2, sum_df_cal2, how= 'left', left_on = ['T_ID',"YEAR","MERGE_IDX","IDX"], right_on  = ['T_ID',"YEAR","MERGE_IDX","IDX"])
    
    conv2 = convert_attribute(merge_df2)
    
    cumul_data.append(conv2)

=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2017
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2018
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2019
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2020
LG
HH
NC
HT
SK
KT
WO
LT
SS
OB
=== 2016
LG
HH
NC
HT
SK
K

In [114]:
# for i in range(len(orig_data)):
#     orig_data[i].to_csv("orig_dataset_{}.csv".format(i), index = False)
#     cumul_data[i].to_csv("cumul_dataset_{}.csv".format(i), index = False)

### 5-3. 누적 데이터 + 누적 AVG/ERA

누적 데이터에 누적 타율/방어율 변수를 추가하였다

In [151]:
new_cumul_data = []

for i in range(len(cumul_data)):
    tmp_new = pd.concat([cumul_data[i],cteam_AVG_lst[i], cteam_ERA_lst[i]],axis=1)
    new_cumul_data.append(tmp_new)

# Train/Valid/Test split
**모델 학습을 위해 Train/Valid/Test 데이터 구성**  

승률 예측 시 순수(비누적)데이터를 이용했고, 타율/방어율 예측 시 누적 데이터를 이용했다.



In [191]:
def shifting(df):
    sel_col = ["T_ID","IDX","MERGE_IDX","PCT","ERA","AVG",'YEAR']
    df_shift = df.loc[:,sel_col]
    shift_col = sorted(list(set(list(df.columns))-set(['T_ID','YEAR'])))
    
    for i in range(1,2):
        for c in shift_col:
            df_shift.loc[:,'shift_{}'.format(c)] = df.loc[:,c].shift(i)
    
    df_shift.dropna(inplace=True)
    
    return df_shift

## 1. Train 전처리  

train 데이터를 구성하는 단계로, 이전 24경기(혹은 누적경기)를 이용해 다음 24경기의 승률(타율/방어율)을 계산해야 하므로 기본변수(T_ID, YEAR, (shift_)IDX, (shift_)MERGE_IDX)와 타겟 값(PCT/AVG/ERA)을 제외한 변수를 1칸씩 밀어주는 작업이 진행된다.

In [124]:
def train_processing(df):
    train = df[df["IDX"]!=777]
    
    train_shift = shifting(train)
    ts_idx = list(train_shift.index)
    
    drop_idx = []
    for i in ts_idx:
        idx_num = train_shift.loc[i,'IDX']
        if idx_num <= train_shift.loc[i,'shift_IDX']:
            drop_idx.append(i)
    

    train_s_df = train_shift.drop(drop_idx).reset_index(drop = True)  
    train_s_drop_df = train_s_df.drop(["IDX","MERGE_IDX","shift_IDX","shift_MERGE_IDX","ERA","AVG","PCT"],axis = 1)

    return train_s_df, train_s_drop_df

In [138]:
orig_train1 = []
orig_train2 = []

for i in range(len(orig_data)):
    tmp_df = orig_data[i]
    train_s_df, train_s_drop_df = train_processing(tmp_df)
    orig_train1.append(train_s_df)
    orig_train2.append(train_s_drop_df)

In [153]:
cumul_train1 = []
cumul_train2 = []

for i in range(len(new_cumul_data)):    
    tmp_df_c = new_cumul_data[i]
    train_s_df_c, train_s_drop_df_c = train_processing(tmp_df_c)
    cumul_train1.append(train_s_df_c)
    cumul_train2.append(train_s_drop_df_c)

## 2. Valid 전처리

Valid 데이터를 구성하는 단계로, 미리 분류해둔 후반 24경기(IDX=777)의 바로 이전 데이터(IDX=5, 기준: 2016~2019)를 가져와 기본변수(T_ID, YEAR, (shift_)IDX, (shift_)MERGE_IDX)와 타겟 값(PCT/AVG/ERA)을 제외한 변수를 1칸씩 밀어주는 작업이 진행된다.


In [347]:
def valid_processing(df, train_year):
    test = df[df["IDX"]==777]
    tmp_valid = df[df["IDX"]==5]
    
    tmp_valid = tmp_valid[(tmp_valid["YEAR"] != str(train_year[0])) & (tmp_valid["YEAR"] !=str(train_year[1]))]
    
    test = pd.concat([test,tmp_valid],axis=0)
    test = test.sort_values(by=["YEAR","T_ID","IDX"]).reset_index(drop=True)

    test_shift = shifting(test)

    test_s_df = test_shift[test_shift["IDX"]==777].reset_index(drop=True)
    test_s_drop_df = test_s_df.drop(["IDX","MERGE_IDX","shift_IDX","shift_MERGE_IDX","ERA","AVG","PCT"],axis = 1)
    
    return test_s_df, test_s_drop_df

In [348]:
orig_valid1 = []
orig_valid2 = []

for i in range(len(orig_data)):
    tmp_df = orig_data[i]
    valid_s_df, valid_s_drop_df = valid_processing(tmp_df,[i+2016,2020])
    orig_valid1.append(valid_s_df)
    orig_valid2.append(valid_s_drop_df)

In [349]:
cumul_valid1 = []
cumul_valid2 = []

for i in range(len(new_cumul_data)):    
    tmp_df_c = new_cumul_data[i]
    valid_s_df_c, valid_s_drop_df_c = valid_processing(tmp_df_c,[i+2016,2020])
    cumul_valid1.append(valid_s_df_c)
    cumul_valid2.append(valid_s_drop_df_c)

## 3. AVG/ERA dataset 가공  
**타율과 방어율 예측에 사용할 수 있는 타자변수/투수변수 분류**
<p>현재 Dataframe에는 T_ID(해당 팀), p_(해당 팀의 투수지표), h_(해당 팀의 타자지표), vs_p_(상대팀의 투수 관련지표), vs_h_(상대팀의 타자지표), 경기 정보 등으로 구성되어 있다. 타율과 방어율 예측 시 사용할 수 있는 변수가 다르기 때문에 이를 분류해주는 작업을 진행했다.

- 타율(AVG) 예측시 사용 변수: 공통변수 + 타자변수 + 상대팀 투수변수
- 방어율(ERA) 예측시 사용 변수: 공통변수 + 투수변수 + 상대팀 타자변수

In [331]:
def select_col(train_col):
    common_list = ['T_ID', 'YEAR', 'HEADER_NO','PCT']
    hitter = ['AVG', 'OBP', 'SLG', 'OPS', 'RC', 'GPA', 'BA', 'SECA', 
              'TA', 'XR', 'ISO', 'wOBA', 'P_HRA_RT', 'DER', 'a_']
    pitcher = ['WHIP', 'LOB', 'ERA', 'FIP', 'H_9', 'K_9', 'BB_9', 
               'HR_9', 'oAVG', 'oSLG', 'oOBP', 'P_WHIP_RT', 'P2_WHIP_RT', 'CB_WHIP_RT','oISO', 'oOPS','e_']

    vs_hitter = ['vs_AVG', 'vs_OBP', 'vs_SLG', 'vs_OPS', 'vs_RC', 'vs_GPA', 'vs_BA', 'vs_SECA', 
                 'vs_TA', 'vs_XR', 'vs_ISO', 'vs_wOBA', 'vs_P_HRA_RT', 'vs_DER']
    vs_pitcher = ['vs_WHIP', 'vs_LOB', 'vs_ERA', 'vs_FIP', 'vs_H_9', 'vs_K_9', 'vs_BB_9', 
                  'vs_HR_9', 'vs_oAVG', 'vs_oSLG', 'vs_oOBP', 'vs_P_WHIP_RT', 'vs_P2_WHIP_RT', 'vs_CB_WHIP_RT'
                 ,'vs_oISO', 'vs_oOPS']

    avg_col = common_list + hitter + vs_pitcher
    era_col = common_list + pitcher + vs_hitter

    sel_avg_lst =train_col[:2]
    sel_era_lst = train_col[:2]

    for i in train_col[2:]:
        for k in avg_col:
            if k in i:
                sel_avg_lst.append(i)
                break

    for i in train_col[2:]:
        for k in era_col:
            if k in i:
                sel_era_lst.append(i)
                break
                
    return sel_avg_lst, sel_era_lst

In [332]:
train_col = list(cumul_train2[0].columns)
sel_avg_lst, sel_era_lst = select_col(train_col)

## 4. 최종 데이터셋 생성 및 저장
**입력변수와 타겟변수를 분리하여 각 예측값에 대한 입력 데이터셋 구축**  

Augmentation이 완료된 데이터에 예측 그룹에 대한 홈경기수/상대팀구성비율을 추가하여 최종 입력변수(X)를 생성한 후, 타겟변수(y)를 분리한다.

### 4-1. 생성(Train, Valid)
- PCT(누적 안한 데이터 이용): PCT_train_X, PCT_train_y, PCT_valid_X, PCT_valid_y
- AVG(누적 데이터 이용): AVG_train_X, AVG_train_y, AVG_valid_X, AVG_valid_y
- ERA(누적 데이터 이용): ERA_train_X, ERA_train_y, ERA_valid_X, ERA_valid_y

In [350]:
hvs_col = ['c_HH', 'c_HT', 'c_KT', 'c_LG', 'c_LT', 'c_NC', 'c_OB', 'c_SK', 'c_SS', 'c_WO',"ISHOME"]

In [379]:
# 승률
PCT_train_X_lst = []
PCT_train_y_lst = []

PCT_valid_X_lst = []
PCT_valid_y_lst = []

for i in range(len(orig_train1)):
    hvs_tmp = Home_VS_lst[i]
    tX = hvs_tmp[(hvs_tmp["IDX"] !=777)&(hvs_tmp["IDX"] !=1)].loc[:,hvs_col].reset_index(drop=True)
    vX = hvs_tmp[hvs_tmp["IDX"]==777].loc[:,hvs_col].reset_index(drop=True)

    PCT_train_X = orig_train2[i]
    PCT_train_y = orig_train1[i][["T_ID","YEAR","PCT"]]
    
    PCT_valid_X = orig_valid2[i]
    PCT_valid_y = orig_valid1[i][["T_ID","YEAR","PCT"]]
    
    PCT_train_X_lst.append(pd.concat([PCT_train_X,tX],axis=1))
    PCT_train_y_lst.append(PCT_train_y)
    
    PCT_valid_X_lst.append(pd.concat([PCT_valid_X,vX],axis=1))
    PCT_valid_y_lst.append(PCT_valid_y)

In [380]:
# 타율
AVG_train_X_lst = []
AVG_train_y_lst = []

AVG_valid_X_lst = []
AVG_valid_y_lst = []

for i in range(len(cumul_train1)):
    hvs_tmp = Home_VS_lst[i]
    tX = hvs_tmp[(hvs_tmp["IDX"] !=777)&(hvs_tmp["IDX"] !=1)].loc[:,hvs_col].reset_index(drop=True)
    vX = hvs_tmp[hvs_tmp["IDX"]==777].loc[:,hvs_col].reset_index(drop=True)

    AVG_train_X = cumul_train2[i][sel_avg_lst]
    AVG_train_y = orig_train1[i][["T_ID","YEAR","AVG"]]
    
    AVG_valid_X = cumul_valid2[i][sel_avg_lst]
    AVG_valid_y = orig_valid1[i][["T_ID","YEAR","AVG"]]
    
    AVG_train_X_lst.append(pd.concat([AVG_train_X,tX],axis=1))
    AVG_train_y_lst.append(AVG_train_y)
    
    AVG_valid_X_lst.append(pd.concat([AVG_valid_X,vX],axis=1))
    AVG_valid_y_lst.append(AVG_valid_y)

In [381]:
# 방어율
ERA_train_X_lst = []
ERA_train_y_lst = []

ERA_valid_X_lst = []
ERA_valid_y_lst = []

for i in range(len(cumul_train1)):
    hvs_tmp = Home_VS_lst[i]
    tX = hvs_tmp[(hvs_tmp["IDX"] !=777)&(hvs_tmp["IDX"] !=1)].loc[:,hvs_col].reset_index(drop=True)
    vX = hvs_tmp[hvs_tmp["IDX"]==777].loc[:,hvs_col].reset_index(drop=True)

    ERA_train_X = cumul_train2[i][sel_era_lst]
    ERA_train_y = orig_train1[i][["T_ID","YEAR","ERA"]]
    
    ERA_valid_X = cumul_valid2[i][sel_era_lst]
    ERA_valid_y = orig_valid1[i][["T_ID","YEAR","ERA"]]
    
    ERA_train_X_lst.append(pd.concat([ERA_train_X,tX],axis=1))
    ERA_train_y_lst.append(ERA_train_y)
    
    ERA_valid_X_lst.append(pd.concat([ERA_valid_X,vX],axis=1))
    ERA_valid_y_lst.append(ERA_valid_y)

In [383]:
ERA_train_X.shape, ERA_train_y.shape, ERA_valid_X.shape, ERA_valid_y.shape

((3858, 53), (3858, 3), (30, 53), (30, 3))

In [384]:
AVG_train_X.shape, AVG_train_y.shape, AVG_valid_X.shape, AVG_valid_y.shape

((3858, 56), (3858, 3), (30, 56), (30, 3))

In [385]:
PCT_train_X.shape, PCT_train_y.shape, PCT_valid_X.shape, PCT_valid_y.shape

((3858, 55), (3858, 3), (30, 55), (30, 3))

### 4-2. 생성(Test)
**정규시즌 잔여 경기에 대한 각 팀별 승률, 타율 및 방어율(평균자책점) 예측을 위한 입력값 생성**

- PCT(누적 안한 데이터 이용): PCT_test_X
- AVG(누적 데이터 이용): AVG_test_X
- ERA(누적 데이터 이용): ERA_test_X

In [None]:
## 잔여경기 홈/상대팀 비율
last_game = pd.read_csv("../data/2020_잔여경기.csv", encoding="utf-8-sig") 
team_name = pd.read_csv("../data/2020빅콘테스트_스포츠투아이_제공데이터_팀_2020.csv", encoding="euc-kr")

tmp_g1 = pd.merge(last_game, team_name, how= 'left', left_on=["HOME"], right_on=["T_NM"])
tmp_g2 = pd.merge(tmp_g1, team_name, how= 'left', left_on=["AWAY"], right_on=["T_NM"])[["T_ID_x","T_ID_y"]]

tmp_alt_g2 = tmp_g2.copy()
tmp_alt_g2 = tmp_alt_g2.rename(columns = {'T_ID_x':'T_ID_y','T_ID_y':"T_ID_x"})

tmp_g2["ISHOME"]=1
tmp_alt_g2["ISHOME"] = 0

tmp2020_last = pd.concat([tmp_g2, tmp_alt_g2], axis= 0).rename(columns = {'T_ID_x':'T_ID','T_ID_y':"VS_T_ID"})

df2020_new = pd.concat([tmp2020_last, pd.get_dummies(tmp2020_last.VS_T_ID)], axis = 1).reset_index(drop = True)
df2020_new_df = make_sum(df2020_new, 'home')

df2020_new_df.iloc[:,-11:] = df2020_new_df.iloc[:,-11:].astype(np.int64)

t2020_cal = df2020_new_df.add_prefix('c_').iloc[:,-10:]

for i in range(len(df2020_new_df)):
    t2020_cal.iloc[i,:] = t2020_cal.iloc[i,:]/sum(t2020_cal.iloc[i,:])
    
df_team_2020 = pd.concat([df2020_new_df.iloc[:,:2], t2020_cal],axis=1).sort_values(by=["T_ID"]).reset_index(drop=True)


In [478]:
# PCT, AVG, ERA 따로
size_2020_df = size_df[size_df["YEAR"]=='2020'].drop(["GDAY_DS"],axis=1)
sum_2020_df = sum_df[sum_df["YEAR"]=='2020'].drop(["GDAY_DS"],axis=1)

test_orig_df = pd.DataFrame([])
test_cumul_df = pd.DataFrame([])

key = 24
for t in team:
    ttmp_size_df = size_2020_df[size_2020_df["T_ID"]==t]
    ttmp_sum_df = sum_2020_df[sum_2020_df["T_ID"]==t]
    tmp_size = len(ttmp_size_df)
    
    # 누적 X
    ttmp_size_test_df = ttmp_size_df.iloc[tmp_size-key:,:]
    ttmp_sum_test_df = ttmp_sum_df.iloc[tmp_size-key:,:]
    
    tmp1 = make_pct(ttmp_size_test_df)[["PCT"]]
    tmp2 = make_sum(ttmp_sum_test_df)
    
    merge_df1 = pd.concat([tmp2,tmp1], axis=1)
    conv1 = convert_attribute(merge_df1, 'test')
    
    test_orig_df = pd.concat([test_orig_df,conv1],axis=0)
    
    # 누적 O
    ttmp_size_test_df_c = ttmp_size_df.iloc[:tmp_size-key,:]
    ttmp_sum_test_df_c = ttmp_sum_df.iloc[:tmp_size-key,:]
    
    tmp1_c = make_pct(ttmp_size_test_df_c)[["PCT"]]
    tmp2_c = make_sum(ttmp_sum_test_df_c)
    
    merge_df2 = pd.concat([tmp2_c,tmp1_c], axis=1)
    conv2 = convert_attribute(merge_df2, 'test')
    
    test_cumul_df = pd.concat([test_cumul_df,conv2],axis=0)

test_orig_df = test_orig_df.reset_index(drop=True)  
test_cumul_df = test_cumul_df.reset_index(drop=True)
    
# 누적 승타방
ae_team_df = sum_2020_df[def_col + ae_col]
ae_team_df_c = make_sum(ae_team_df, 'vs')

ae_team_df_c["ERA"] = (9 * ae_team_df_c["p_ER"]) / (ae_team_df_c["p_INN2"] / 3)
ae_team_df_c["AVG"] = (ae_team_df_c["h_HIT"] / ae_team_df_c["h_AB"])

cul_t_avg_df_c = ae_team_df_c.drop(["ERA"]+ae_col,axis=1)
cul_t_era_df_c = ae_team_df_c.drop(["AVG"]+ae_col,axis=1)

cul_avg_df_c = cul_t_avg_df_c.pivot_table('AVG', ['T_ID', 'YEAR'], 'VS_T_ID').reset_index().fillna(0)
cul_era_df_c = cul_t_era_df_c.pivot_table('ERA', ['T_ID', 'YEAR'], 'VS_T_ID').reset_index().fillna(0)

ca_c = cul_avg_df_c.iloc[:,-10:].add_prefix('a_')
ce_c = cul_era_df_c.iloc[:,-10:].add_prefix('e_')

test_cumul_df_c = pd.concat([test_cumul_df,ca_c,ce_c],axis=1)


test_col = list(test_cumul_df_c.columns)
sel_avg_lst_t, sel_era_lst_t = select_col(test_col)

PCT_test_X = test_orig_df.copy()
AVG_test_X = test_cumul_df_c[sel_avg_lst_t]
ERA_test_X = test_cumul_df_c[sel_era_lst_t]
    
PCT_test_X_fin = pd.concat([PCT_test_X, df_team_2020.iloc[:,1:]], axis = 1 )
AVG_test_X_fin = pd.concat([AVG_test_X, df_team_2020.iloc[:,1:]], axis = 1 )
ERA_test_X_fin = pd.concat([ERA_test_X, df_team_2020.iloc[:,1:]], axis = 1 )



In [None]:
def rename_test_col(orig_col, test_df):
    tmp_col = [name.replace("shift_", "") for name in orig_col]
    new_test_df = test_df[tmp_col]
    
    mod_col = ["T_ID","YEAR"]
    mod_col += ["shift_" + name for name in tmp_col[2:-11]]
    mod_col += tmp_col[-11:]
    
    return new_test_df, mod_col

In [4]:
p_temp_column = PCT_train_X_lst[0].columns.to_list()
PCT_test_X_set = PCT_test_X_fin.copy()
PCT_test_X_set, PCT_test_X_set.columns = rename_test_col(p_temp_column, PCT_test_X_set)

a_temp_column = AVG_train_X_lst[0].columns.to_list()
AVG_test_X_set = AVG_test_X_fin.copy()
AVG_test_X_set, AVG_test_X_set.columns = rename_test_col(a_temp_column, AVG_test_X_set)

e_temp_column = ERA_train_X_lst[0].columns.to_list()
ERA_test_X_set = ERA_test_X_fin.copy()
ERA_test_X_set,ERA_test_X_set.columns = rename_test_col(e_temp_column, ERA_test_X_set)

In [480]:
PCT_test_X_set.shape, AVG_test_X_set.shape, ERA_test_X_set.shape

((10, 66), (10, 67), (10, 64))

In [389]:
PCT_train_X_lst[0].shape, AVG_train_X_lst[0].shape,ERA_train_X_lst[0].shape

((3858, 66), (3858, 67), (3858, 64))

### 4-2. 저장  

전처리가 완료된 데이터를 저장한다.

In [386]:
for i in range(len(PCT_train_X_lst)):
    PCT_train_X_lst[i].to_csv("../data/PCT/PCT_train_X_{}.csv".format(i+1),index = False)
    PCT_train_y_lst[i].to_csv("../data/PCT/PCT_train_y_{}.csv".format(i+1),index = False)

    PCT_valid_X_lst[i].to_csv("../data/PCT/PCT_valid_X_{}.csv".format(i+1),index = False)
    PCT_valid_y_lst[i].to_csv("../data/PCT/PCT_valid_y_{}.csv".format(i+1),index = False)

    AVG_train_X_lst[i].to_csv("../data/AVG/AVG_train_X_{}.csv".format(i+1),index = False)
    AVG_train_y_lst[i].to_csv("../data/AVG/AVG_train_y_{}.csv".format(i+1),index = False)

    AVG_valid_X_lst[i].to_csv("../data/AVG/AVG_valid_X_{}.csv".format(i+1),index = False)
    AVG_valid_y_lst[i].to_csv("../data/AVG/AVG_valid_y_{}.csv".format(i+1),index = False)
    
    ERA_train_X_lst[i].to_csv("../data/ERA/ERA_train_X_{}.csv".format(i+1),index = False)
    ERA_train_y_lst[i].to_csv("../data/ERA/ERA_train_y_{}.csv".format(i+1),index = False)

    ERA_valid_X_lst[i].to_csv("../data/ERA/ERA_valid_X_{}.csv".format(i+1),index = False)
    ERA_valid_y_lst[i].to_csv("../data/ERA/ERA_valid_y_{}.csv".format(i+1),index = False)


In [481]:
PCT_test_X_set.to_csv("../data/test/PCT_test_X.csv",index = False)
AVG_test_X_set.to_csv("../data/test/AVG_test_X.csv",index = False)
ERA_test_X_set.to_csv("../data/test/ERA_test_X.csv",index = False)