In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import gc
import glob

# 그래프 기본 테마 설정
# https://coldbrown.co.kr/2023/07/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EC%8B%A4%EC%A0%84%ED%8E%B8-08-seaborn-sns-set%EC%9D%84-%ED%86%B5%ED%95%B4-%EC%8A%A4%ED%83%80%EC%9D%BC-%EC%84%A4%EC%A0%95%ED%95%98%EA%B8%B0/
sns.set()

# 그래프 기본 설정
plt.rcParams['font.family'] = 'Malgun Gothic'
# plt.rcParams['font.family'] = 'AppleGothic'
plt.rcParams['figure.figsize'] = 12, 6
plt.rcParams['font.size'] = 14
plt.rcParams['axes.unicode_minus'] = False


# 복잡한 통계 처리를 위한 라이브러리
from scipy import stats

In [2]:
# data_type = "train"
# month = "07"
# category = "잔액정보"

# local
root_path = '../../data/야구데이터'

# colab
# root_path = '/content/drive/MyDrive/12조 파이널프로젝트/data'

drive_folder = f'{root_path}/스탯티즈_Raw_data/'

In [3]:
df1 = pd.read_csv(f'{drive_folder}FA투수데이터 1차.csv', encoding='utf-8')

#### 우진님께서 1차로 "TEAM"이 들어간 컬럼, 구단명이 "은퇴"인 row 삭제 진행

In [5]:
# 출력 옵션 조정 (생략 없이 dtypes 포함 모든 열 보기)
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None) 

### 🔎 결측치 확인

In [7]:
print("🔍 [결측치 개수]")
print("▶ df1:\n", df1.isnull().sum().sort_values(ascending=False))

🔍 [결측치 개수]
▶ df1:
 비고2         324
FA 계약 총액    264
FA 계약 연수    264
잔류 여부       257
선발 WAR      171
2루타허용        53
선발 이닝        53
구원 이닝        53
FA등급         53
비고1          53
인정년수         53
3루타허용        53
구원 WAR       48
블론세이브        36
블론홀드         36
연봉            7
FIP           4
이닝수           4
종합 WAR        0
볼넷허용          0
ERA           0
폭투            0
탈삼진           0
사구허용          0
FA년도          0
피홈런           0
게임수           0
선수명           0
세부 포지션        0
투             0
구분            0
플레이년도         0
나이            0
선발등판          0
구단명           0
구원등판          0
승리            0
패전            0
세이브           0
홀드            0
자책점           0
피안타           0
dtype: int64


In [8]:
pd.reset_option('display.max_columns')
pd.reset_option('display.max_rows')

## 비고2

In [10]:
# 둘다 결측치가 대부분이고, 분석에 영향이 크지 않아보여 삭제
df1 = df1.drop(columns=['비고2'], errors='ignore')

In [11]:
# "TEAM"이 들어간 컬럼에 결측치가 많다.
# 일단 정말 필요한 컬럼들의 전처리를 위해 삭제하고 진행
# 필요시 나중에 따로 전처리 하는걸로
# df1 = df1.loc[:, ~df1.columns.str.contains("TEAM", case=False, na=False)]

In [12]:
# excel로 살펴보기 해해
# df1.to_excel("KBO FA 투수 [2013-2024]_1차_전처리.xlsx", index=False)

In [13]:
print("🔍 [결측치 개수]")
print("▶ df1:\n", df1.isnull().sum().sort_values(ascending=False))

🔍 [결측치 개수]
▶ df1:
 FA 계약 총액    264
FA 계약 연수    264
잔류 여부       257
선발 WAR      171
FA등급         53
2루타허용        53
구원 이닝        53
선발 이닝        53
인정년수         53
비고1          53
3루타허용        53
구원 WAR       48
블론세이브        36
블론홀드         36
연봉            7
FIP           4
이닝수           4
종합 WAR        0
피홈런           0
ERA           0
폭투            0
탈삼진           0
사구허용          0
볼넷허용          0
FA년도          0
피안타           0
구단명           0
홀드            0
세이브           0
패전            0
승리            0
구원등판          0
선발등판          0
게임수           0
나이            0
플레이년도         0
구분            0
투             0
세부 포지션        0
선수명           0
자책점           0
dtype: int64


## 구단명

In [15]:
df1['구단명'].value_counts()

구단명
삼성     66
한화     44
LG     39
롯데     37
넥센     25
SK     24
두산     24
KIA    21
NC     17
키움     14
KT     12
SSG     3
우리      1
Name: count, dtype: int64

#### 우리 --> 마일영 의 기록은 2010년도부터 한화로 되어있어서 한화로 교체
#### 넥센 --> 키움
#### SK --> SSG

In [17]:
# 팀명 변경 딕셔너리
team_rename_map = {
    '넥센': '키움',
    'SK': 'SSG',
}

# 1. 일반적인 팀명 변경 적용
df1['구단명'] = df1['구단명'].replace(team_rename_map)

# 2. 마일영 선수의 2010년도 기록만 예외적으로 '한화'로 수정
df1.loc[(df1['선수명'] == '마일영') & (df1['FA년도'] == 2010), '구단명'] = '한화'

In [18]:
df1['구단명'].value_counts()

구단명
삼성     66
한화     45
키움     39
LG     39
롯데     37
SSG    27
두산     24
KIA    21
NC     17
KT     12
Name: count, dtype: int64

## 비고1

In [20]:
df1['비고1'].unique()

array(['고졸', nan, '신규 35세 23년 C등급', '35세 이상', '대졸', '신규 35세 해외 복귀',
       '23년 B등급'], dtype=object)

#### 비고1은 결측치 바로 위에값으로 결측치를 처리해준다.

In [22]:
df1['비고1'] = df1['비고1'].ffill()

In [23]:
df1['비고1'].value_counts()

비고1
고졸                242
대졸                 50
35세 이상             15
신규 35세 23년 C등급     10
신규 35세 해외 복귀        5
23년 B등급             5
Name: count, dtype: int64

## 이닝수
#### 이닝수 = 선발 이닝 + 구원 이닝 ---> (일단 값이 정확하진 않지만 결측치 채우고 추후 생각)

In [25]:
df1['이닝수'].isna().sum()

4

In [26]:
df1['이닝수'] = df1['이닝수'].fillna(df1['선발 이닝'] + df1['구원 이닝'])

In [27]:
df1['이닝수'].isna().sum()

0

- 우진님 : 이닝수 결측치를 따로 추가해준게 있던데..

## 블론세이브, 블론 홀드
#### 블론홀드나 세이브의 결측치는 스탯티즈에 값이 없는 값이라 결측치이다.
#### -> 0으로 처리해도 되려나 ?? : 이미 기록이 없는데 0으로 들어간 값도 있기 때문
#### -> 기록이 없는게 진짜 기록이 0인게 맞나? --> 기록을 찾아서, 수기로 작성

In [30]:
df1['블론홀드'].isna().sum()

36

In [31]:
df1['블론세이브'].isna().sum()

36

In [32]:
# 강영식
df1.loc[(df1['선수명'] == '강영식') & (df1['플레이년도'] == 2010), ['블론홀드', '블론세이브']] = [0, 3]
df1.loc[(df1['선수명'] == '강영식') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 1]
# 권혁
df1.loc[(df1['선수명'] == '권혁') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 1]
# 마일영
df1.loc[(df1['선수명'] == '마일영') & (df1['플레이년도'].isin([2009, 2010, 2011])), ['블론세이브', '블론홀드']] = [0, 0]
# 마정길
df1.loc[(df1['선수명'] == '마정길') & (df1['플레이년도'] == 2016), ['블론홀드', '블론세이브']] = [1, 0]
# 박정진
df1.loc[(df1['선수명'] == '박정진') & (df1['플레이년도'] == 2010), ['블론홀드', '블론세이브']] = [0, 4]
df1.loc[(df1['선수명'] == '박정진') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 1]
# 손승락
df1.loc[(df1['선수명'] == '손승락') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 6]
# 송승준
df1.loc[(df1['선수명'] == '송승준') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 0]
# 송은범
df1.loc[(df1['선수명'] == '송은범') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 2]
df1.loc[(df1['선수명'] == '송은범') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 0]
# 심수창
df1.loc[(df1['선수명'] == '심수창') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 1]
# 안지만
df1.loc[(df1['선수명'] == '안지만') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 1]
df1.loc[(df1['선수명'] == '안지만') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 1]
df1.loc[(df1['선수명'] == '안지만') & (df1['플레이년도'] == 2015), ['블론홀드', '블론세이브']] = [0, 4]
# 오승환
df1.loc[(df1['선수명'] == '오승환') & (df1['플레이년도'] == 2010), ['블론홀드', '블론세이브']] = [0, 3]
df1.loc[(df1['선수명'] == '오승환') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 1]
# 유동훈
df1.loc[(df1['선수명'] == '유동훈') & (df1['플레이년도'] == 2009), ['블론홀드', '블론세이브']] = [0, 3]
df1.loc[(df1['선수명'] == '유동훈') & (df1['플레이년도'] == 2010), ['블론홀드', '블론세이브']] = [0, 6]
df1.loc[(df1['선수명'] == '유동훈') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 4]
# 윤길현
df1.loc[(df1['선수명'] == '윤길현') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 0]
# 윤석민
df1.loc[(df1['선수명'] == '윤석민') & (df1['플레이년도'] == 2010), ['블론홀드', '블론세이브']] = [0, 1]
df1.loc[(df1['선수명'] == '윤석민') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 0]
# 윤성환
df1.loc[(df1['선수명'] == '윤성환') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 0]
df1.loc[(df1['선수명'] == '윤성환') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 0]
# 이동현
df1.loc[(df1['선수명'] == '이동현') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 2]
# 이재영
df1.loc[(df1['선수명'] == '이재영') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 0]
df1.loc[(df1['선수명'] == '이재영') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 2]
# 이정훈
df1.loc[(df1['선수명'] == '이정훈') & (df1['플레이년도'] == 2009), ['블론홀드', '블론세이브']] = [0, 3]
df1.loc[(df1['선수명'] == '이정훈') & (df1['플레이년도'] == 2010), ['블론홀드', '블론세이브']] = [0, 2]
df1.loc[(df1['선수명'] == '이정훈') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 3]
# 장원준
df1.loc[(df1['선수명'] == '장원준') & (df1['플레이년도'] == 2011), ['블론홀드', '블론세이브']] = [0, 0]
# 정우람
df1.loc[(df1['선수명'] == '정우람') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 5]
# 채병용 
df1.loc[(df1['선수명'] == '채병용') & (df1['플레이년도'] == 2012), ['블론홀드', '블론세이브']] = [0, 0]

## 2루타허용, 3루타허용

In [34]:
df1.loc[0, ['2루타허용', '3루타허용']] = [6, 4]
df1.loc[1, ['2루타허용', '3루타허용']] = [4, 0]
df1.loc[2, ['2루타허용', '3루타허용']] = [8, 1]
df1.loc[19, ['2루타허용', '3루타허용']] = [6, 0]
df1.loc[20, ['2루타허용', '3루타허용']] = [9, 3]
df1.loc[38, ['2루타허용', '3루타허용']] = [12, 3]
df1.loc[39, ['2루타허용', '3루타허용']] = [6, 1]
df1.loc[67, ['2루타허용', '3루타허용']] = [24, 1]
df1.loc[68, ['2루타허용', '3루타허용']] = [7, 1]
df1.loc[69, ['2루타허용', '3루타허용']] = [14, 0]
df1.loc[70, ['2루타허용', '3루타허용']] = [14, 3]
df1.loc[77, ['2루타허용', '3루타허용']] = [6, 0]
df1.loc[78, ['2루타허용', '3루타허용']] = [18, 0]
df1.loc[79, ['2루타허용', '3루타허용']] = [10, 0]
df1.loc[85, ['2루타허용', '3루타허용']] = [23, 5]
df1.loc[86, ['2루타허용', '3루타허용']] = [31, 3]
df1.loc[99, ['2루타허용', '3루타허용']] = [4, 3]
df1.loc[107, ['2루타허용', '3루타허용']] = [20, 1]
df1.loc[112, ['2루타허용', '3루타허용']] = [9, 0]
df1.loc[113, ['2루타허용', '3루타허용']] = [16, 0]
df1.loc[121, ['2루타허용', '3루타허용']] = [10, 0]
df1.loc[131, ['2루타허용', '3루타허용']] = [11, 1]
df1.loc[132, ['2루타허용', '3루타허용']] = [9, 1]
df1.loc[144, ['2루타허용', '3루타허용']] = [1, 0]
df1.loc[145, ['2루타허용', '3루타허용']] = [3, 0]
df1.loc[146, ['2루타허용', '3루타허용']] = [8, 1]
df1.loc[172, ['2루타허용', '3루타허용']] = [4, 0]
df1.loc[173, ['2루타허용', '3루타허용']] = [7, 2]
df1.loc[174, ['2루타허용', '3루타허용']] = [15, 0]
df1.loc[175, ['2루타허용', '3루타허용']] = [9, 1]
df1.loc[187, ['2루타허용', '3루타허용']] = [1, 0]
df1.loc[192, ['2루타허용', '3루타허용']] = [17, 1]
df1.loc[193, ['2루타허용', '3루타허용']] = [22, 2]
df1.loc[194, ['2루타허용', '3루타허용']] = [26, 7]
df1.loc[196, ['2루타허용', '3루타허용']] = [25, 3]
df1.loc[197, ['2루타허용', '3루타허용']] = [22, 1]
df1.loc[205, ['2루타허용', '3루타허용']] = [4, 1]
df1.loc[219, ['2루타허용', '3루타허용']] = [2, 0]
df1.loc[220, ['2루타허용', '3루타허용']] = [14, 0]
df1.loc[229, ['2루타허용', '3루타허용']] = [19, 1]
df1.loc[230, ['2루타허용', '3루타허용']] = [15, 2]
df1.loc[231, ['2루타허용', '3루타허용']] = [11, 1]
df1.loc[232, ['2루타허용', '3루타허용']] = [10, 3]
df1.loc[263, ['2루타허용', '3루타허용']] = [27, 3]
df1.loc[264, ['2루타허용', '3루타허용']] = [20, 1]
df1.loc[265, ['2루타허용', '3루타허용']] = [21, 4]
df1.loc[268, ['2루타허용', '3루타허용']] = [36, 1]
df1.loc[271, ['2루타허용', '3루타허용']] = [6, 1]
df1.loc[283, ['2루타허용', '3루타허용']] = [11, 2]
df1.loc[284, ['2루타허용', '3루타허용']] = [11, 3]
df1.loc[285, ['2루타허용', '3루타허용']] = [6, 0]
df1.loc[286, ['2루타허용', '3루타허용']] = [12, 1]
df1.loc[307, ['2루타허용', '3루타허용']] = [17, 2]

## 선발 WAR, 구원 WAR
#### 종합 WAR = 선발 WAR + 구원 WAR 

In [36]:
# 선발 WAR = 종합 WAR - 구원 WAR
df1['선발 WAR'].isna().sum()

171

In [37]:
# 구원 WAR = 종합 WAR - 선발 WAR
df1['구원 WAR'].isna().sum()

48

In [38]:
df1['종합 WAR'].isna().sum()

0

In [39]:
# 구원 WAR 결측치 채우기
df1['구원 WAR'] = df1['구원 WAR'].fillna(df1['종합 WAR'] - df1['선발 WAR'])

In [40]:
# 선발 WAR 결측치 채우기
df1['선발 WAR'] = df1['선발 WAR'].fillna(df1['종합 WAR'] - df1['구원 WAR'])

In [41]:
condition = (
    df1[['선발 WAR', '구원 WAR', '종합 WAR']].notnull().all(axis=1) &  # 결측치 없는 행만
    (df1['선발 WAR'] + df1['구원 WAR'] != df1['종합 WAR'])            # 합이 다른 경우
)

mismatch_count = condition.sum()
print(f"선발 WAR + 구원 WAR ≠ 종합 WAR 인 행 수: {mismatch_count}")

# 조건에 해당하는 행만 추출
mismatch_df2 = df1.loc[condition, ['선수명', '플레이년도', '종합 WAR', '선발 WAR', '구원 WAR']]

선발 WAR + 구원 WAR ≠ 종합 WAR 인 행 수: 42


In [42]:
mismatch_df2

Unnamed: 0,선수명,플레이년도,종합 WAR,선발 WAR,구원 WAR
24,금민철,2015,0.76,0.69,0.08
25,금민철,2016,0.13,-0.23,0.36
26,금민철,2017,0.44,0.1,0.34
31,김광현,2015,5.18,5.14,0.03
34,김대우,2021,0.13,-0.23,0.36
36,김대우,2023,0.39,0.2,0.2
37,김대우,2024,0.31,-0.03,0.34
64,노경은,2016,0.75,1.1,-0.35
86,배영수,2012,3.51,3.39,0.12
89,배영수,2015,-0.02,-0.11,0.09


## 선발 이닝, 구원 이닝
#### 마찬가지로 선발 이닝과 구원 이닝이 결측치인 것은
#### 기록이 없어서 결측치로 되어있다.
- 선발등판, 구원등판, 이닝수를 확인해 채워주고
- 선발, 구원 모두 뛴 기록은 직접 수기로 채워준다.

In [44]:
df1['선발 이닝'].isna().sum()

53

In [45]:
df1['구원 이닝'].isna().sum()

53

In [46]:
df100 = df1[df1['선발 이닝'].isnull() & df1['구원 이닝'].isnull()][['선수명', '플레이년도', '선발 이닝', '구원 이닝', '선발등판', '구원등판']]
df100

Unnamed: 0,선수명,플레이년도,선발 이닝,구원 이닝,선발등판,구원등판
0,강영식,2010,,,0.0,63.0
1,강영식,2011,,,0.0,64.0
2,강영식,2012,,,0.0,55.0
19,권혁,2011,,,0.0,58.0
20,권혁,2012,,,0.0,64.0
38,김사율,2011,,,0.0,61.0
39,김사율,2012,,,0.0,50.0
67,마일영,2009,,,20.0,7.0
68,마일영,2010,,,0.0,47.0
69,마일영,2011,,,8.0,43.0


In [47]:
# 1. 선발등판만 있는 경우 (선발 > 0, 구원 == 0)
mask_start = (
    (df1['선발 이닝'].isnull() | df1['구원 이닝'].isnull()) &
    (df1['선발등판'] > 0) &
    (df1['구원등판'] == 0)
)
df1.loc[mask_start, '선발 이닝'] = df1.loc[mask_start, '이닝수']
df1.loc[mask_start, '구원 이닝'] = 0

# 2. 구원등판만 있는 경우 (선발 == 0, 구원 > 0)
mask_reliever = (
    (df1['선발 이닝'].isnull() | df1['구원 이닝'].isnull()) &
    (df1['선발등판'] == 0) &
    (df1['구원등판'] > 0)
)
df1.loc[mask_reliever, '선발 이닝'] = 0
df1.loc[mask_reliever, '구원 이닝'] = df1.loc[mask_reliever, '이닝수']

In [48]:
condition = (
    df1[['선발 이닝', '구원 이닝', '이닝수']].notnull().all(axis=1) &
    ((df1['선발 이닝'] + df1['구원 이닝']) != df1['이닝수'])
)
mismatch_count = condition.sum()
print(f"선발이닝 + 구원이닝 ≠ 이닝수 인 행 수: {mismatch_count}")

선발이닝 + 구원이닝 ≠ 이닝수 인 행 수: 31


In [49]:
condition = (
    df1[['선발 이닝', '구원 이닝', '이닝수']].notnull().all(axis=1) &
    ((df1['선발 이닝'] + df1['구원 이닝']) != df1['이닝수'])
)

# 조건에 해당하는 행만 추출
mismatch_df = df1.loc[condition, ['선수명', '플레이년도', '이닝수', '선발 이닝', '구원 이닝']]

In [50]:
mismatch_df

Unnamed: 0,선수명,플레이년도,이닝수,선발 이닝,구원 이닝
10,고효준,2017,40.0,4.2,35.1
24,금민철,2015,22.0,19.1,2.2
29,김광현,2013,133.0,127.2,5.1
32,김광현,2016,137.0,126.2,10.1
40,김사율,2013,74.1,38.2,35.2
49,김승회,2015,75.0,33.2,41.1
64,노경은,2016,94.2,92.1,2.1
66,노경은,2018,132.1,110.2,21.2
71,마일영,2013,12.1,1.2,10.2
91,백정현,2019,157.0,153.2,3.1


In [51]:
df1000 = df1[df1['선발 이닝'].isnull() & df1['구원 이닝'].isnull()][['선수명', '플레이년도', '선발 이닝', '구원 이닝', '선발등판', '구원등판', '이닝수']]
df1000

Unnamed: 0,선수명,플레이년도,선발 이닝,구원 이닝,선발등판,구원등판,이닝수
67,마일영,2009,,,20.0,7.0,97.1
69,마일영,2011,,,8.0,43.0,69.2
70,마일영,2012,,,2.0,53.0,61.2
85,배영수,2011,,,17.0,8.0,103.0
86,배영수,2012,,,25.0,1.0,160.0
112,송은범,2011,,,11.0,27.0,78.2
113,송은범,2012,,,19.0,1.0,97.2
121,심수창,2012,,,3.0,18.0,40.2
131,안지만,2011,,,5.0,42.0,86.0
192,윤석민,2010,,,13.0,10.0,101.0


In [52]:
df1.loc[(df1['선수명'] == '마일영') & (df1['플레이년도'] == 2009), ['선발 이닝', '구원 이닝']] = [91.1, 6.0]
df1.loc[(df1['선수명'] == '마일영') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [33.0, 36.2]
df1.loc[(df1['선수명'] == '마일영') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [6.1, 55.1]

df1.loc[(df1['선수명'] == '배영수') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [89.2, 13.1]
df1.loc[(df1['선수명'] == '배영수') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [157.2, 2.1]

df1.loc[(df1['선수명'] == '송은범') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [41.2, 37.0]
df1.loc[(df1['선수명'] == '송은범') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [96.2, 1.0]

df1.loc[(df1['선수명'] == '심수창') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [12.2, 28.0]

df1.loc[(df1['선수명'] == '안지만') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [28.1, 57.2]

df1.loc[(df1['선수명'] == '윤석민') & (df1['플레이년도'] == 2010), ['선발 이닝', '구원 이닝']] = [86.0, 15.0]
df1.loc[(df1['선수명'] == '윤석민') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [168.1, 4.0]
df1.loc[(df1['선수명'] == '윤석민') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [148.0, 5.0]

df1.loc[(df1['선수명'] == '윤성환') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [136.1, 1.0]

df1.loc[(df1['선수명'] == '장원삼') & (df1['플레이년도'] == 2010), ['선발 이닝', '구원 이닝']] = [149.1, 1.2]
df1.loc[(df1['선수명'] == '장원삼') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [109.0, 6.0]
df1.loc[(df1['선수명'] == '장원삼') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [155.1, 1.2]

df1.loc[(df1['선수명'] == '장원준') & (df1['플레이년도'] == 2011), ['선발 이닝', '구원 이닝']] = [173.1, 7.1]

df1.loc[(df1['선수명'] == '정현욱') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [4.2, 58.0]

df1.loc[(df1['선수명'] == '채병용') & (df1['플레이년도'] == 2012), ['선발 이닝', '구원 이닝']] = [59.1, 62.2]


In [53]:
# df1[df1['선발 이닝'].isna() & df1['구원 이닝'].isna()][['선수명', '플레이년도']]

In [54]:
# df1[df1['블론세이브'].isna() | df1['블론홀드'].isna()][['선수명', '플레이년도']]

## 연봉

In [56]:
# 마정길 --> 2012년 연봉 9000 / 2013년 연봉 7000
# https://sports.donga.com/article/all/20120201/43692587/3
# https://heroesbaseball.co.kr/story/heroesNews/view.do?num=10868&searchType=all&searchWord=%EC%97%B0%EB%B4%89
df1.loc[(df1['선수명'] == '마정길') & (df1['플레이년도'] == 2012), '연봉'] = 9000
df1.loc[(df1['선수명'] == '마정길') & (df1['플레이년도'] == 2013), '연봉'] = 7000

In [57]:
# 심수창 --> 2013년 연봉 5500 (1군X)
# 우진님께서 찾음
df1.loc[(df1['선수명'] == '심수창') & (df1['플레이년도'] == 2013), '연봉'] = 5500

In [58]:
# 우규민 --> 2013년 연봉 9000 
# https://www.joynews24.com/view/900646
df1.loc[(df1['선수명'] == '우규민') & (df1['플레이년도'] == 2013), '연봉'] = 9000

In [59]:
# 장원준 --> 2011년 연봉 20000
# https://cm.asiae.co.kr/article/2011010323563498784?utm_source=chatgpt.com
df1.loc[(df1['선수명'] == '장원준') & (df1['플레이년도'] == 2011), '연봉'] = 20000

In [60]:
# 정우람 --> 2012년 연봉 28000
# https://www.newsen.com/news_view.php?uid=201201311513583110
df1.loc[(df1['선수명'] == '정우람') & (df1['플레이년도'] == 2012), '연봉'] = 28000

In [61]:
# 차우찬 --> 2013년 연봉 13000
# 정확한지 모르겠지만, https://baseball-in-play.com/30?utm_source=chatgpt.com
df1.loc[(df1['선수명'] == '차우찬') & (df1['플레이년도'] == 2013), '연봉'] = 13000

In [62]:
df1['연봉'].isna().sum()

0

In [63]:
df2 = df1.copy()

## FIP
#### FIP : 수비 무관 평균 자책점
#### 결측치인 부분은 그 선수가 이적을 해서, FIP가 2개
#### 즉, 다른 FIP는 1년 기준이지만 결측치인 FIP는 1년에 값이 2개 나와있음 그래서 결측치인 것

In [65]:
df1['FIP'].isna().sum()

4

In [66]:
# 강윤구 2021년 FIP 수정
df1.loc[(df1['선수명'] == '강윤구') & (df1['플레이년도'] == 2021), 'FIP'] = 6.37

# 고효준 2016년 FIP 수정 
df1.loc[(df1['선수명'] == '고효준') & (df1['플레이년도'] == 2016), 'FIP'] = 4.99

In [67]:
df1.dropna(subset=['FIP'], inplace=True)

- 아직 2명의 선수 결측치 처리 못함
- 이유 : 2명의 선수가 경기를 뛰지 않아, FIP가 나오지 않음
- 0으로 처리도 어렵다. ROW를 삭제하는 방식으로 가야할 것 같음

## FA 계약 연수/ 계약 총액

In [70]:
#FA 계약 해를 제외하고 전부 0으로 채움
df1['FA 계약 연수']= df1['FA 계약 연수'].fillna(0)
df1['FA 계약 총액']= df1['FA 계약 총액'].fillna(0)

## FA등급
- 마찬가지로, 그 전 등급으로 채워줌

In [72]:
df1['FA등급'] = df1['FA등급'].ffill()

In [73]:
df1['FA등급'].isna().sum()

0

## 잔류 여부
- 잔류 여부는, 모두 잔류로 채워줌

In [75]:
df1['잔류 여부'].fillna('잔류', inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df1['잔류 여부'].fillna('잔류', inplace=True)


In [76]:
df1['잔류 여부'].isna().sum()

0

## 인정년수
- 이 컬럼은 분석에 의미가 없다고 생각해 삭제

In [78]:
df1.drop(columns=['인정년수'], inplace=True)

In [79]:
# 멈추게 하려고
#10/0

In [80]:
print(f"df1 컬럼 수: {len(df1.columns)}")

df1 컬럼 수: 40


## 비FA선수 추가 (투수)

In [82]:
# 1. 컬럼 순서에 맞춘 값만 넣기
new_rows = [
    [2019, 'SSG', '문승원', 'SP', '우투', '다년계약', '다년계약', 2018, 29, 31, 27, 4, 8, 9, 1, 0, 1, 0, 150.2, 77, 180, 33, 2, 24, 37, 4, 122, 4, 4.60, 5.06, 143.1, 7.1, 3.12, 0.25, 3.37, 9000, '대졸', '잔류', 0, 0],
    [2020, 'SSG', '문승원', 'SP', '우투', '다년계약', '다년계약', 2019, 30, 26, 23, 3, 11, 7, 0, 0, 2, 0, 144, 62, 130, 13, 5, 23, 33, 3, 99, 0, 3.88, 4.77, 136, 8, 3.65, 0.39, 4.04, 9000, '대졸', '잔류', 0, 0],
    [2021, 'SSG', '문승원', 'SP', '우투', '다년계약', '다년계약', 2020, 31, 25, 25, 0, 6, 8, 0, 0, 0, 0, 145.2, 59, 136, 28, 0, 13, 45, 6, 117, 2, 3.65, 4.13, 145.2, 0, 4.40, 0, 4.40, 25700, '대졸', '잔류', 0, 0],
    [2022, 'SSG', '문승원', 'RP', '우투', '다년계약', '다년계약', 2021, 32, 9, 9, 0, 2, 2, 0, 0, 0, 0, 50.1, 16, 42, 14, 0, 1, 18, 2, 32, 1, 2.86, 3.65, 50.1, 0, 1.67, 0, 1.67, 25700, '대졸', '잔류', 5, 55],
    [2023, 'SSG', '문승원', 'SP', '우투', 'FA 1년차', '다년계약', 2022, 33, 23, 0, 23, 1, 1, 3, 0, 3, 0, 24.2, 14, 32, 6, 0, 3, 7, 2, 25, 0, 5.11, 3.83, 0, 24.2, 0, -0.01, -0.01, 160000, '대졸', '잔류', 0, 0],
    
    [2019, 'SSG', '박종훈', 'SP', '우투', '다년계약', '다년계약', 2018, 27, 30, 30, 0, 14, 8, 0, 0, 0, 0, 159.1, 74, 158, 31, 3, 16, 54, 20, 133, 3, 4.18, 4.89, 159.1, 0, 4.85, 0, 4.85, 20000, '고졸', '잔류', 0, 0],
    [2020, 'SSG', '박종훈', 'SP', '우투', '다년계약', '다년계약', 2019, 28, 28, 28, 0, 8, 11, 0, 0, 0, 0, 144.0, 62, 157, 29, 0, 12, 59, 13, 100, 1, 3.88, 4.62, 144.0, 0, 3.31, 0, 3.31, 32000, '고졸', '잔류', 0, 0],
    [2021, 'SSG', '박종훈', 'SP', '우투', '다년계약', '다년계약', 2020, 29, 29 ,28, 1, 13, 11, 0, 0, 0, 0, 157.1, 84, 146, 21, 3, 14, 78, 22, 134, 5, 4.81, 4.9, 150.2, 6.2, 2.87, 0.39, 3.26, 29000, '고졸', '잔류', 0, 0],
    [2022, 'SSG', '박종훈', 'SP', '우투', '다년계약', '다년계약', 2021, 30, 9, 9, 0, 4, 2, 0, 0, 0, 0, 54.1, 17, 40, 7, 0, 2, 17, 7, 41, 0, 2.82, 3.69, 54.1, 0, 2.10, 0, 2.10, 32000, '고졸', '잔류', 5, 65],
    [2023, 'SSG', '박종훈', 'SP', '우투', 'FA 1년차', '다년계약', 2022, 31, 11, 11, 0, 3, 5, 0, 0, 0, 0, 48.0, 32, 52, 4, 1, 6, 21, 8, 40, 3, 6.0, 5.06, 48.0, 0, 0.15, 0, 0.15, 180000, '고졸', '잔류', 0, 0],
    
    [2020, '롯데', '박세웅', 'SP', '우투', '다년계약', '다년계약', 2019, 24, 12, 12, 0, 3, 6, 0, 0, 0, 0, 60.0, 28, 66, 12, 3, 3, 23, 0, 44, 4, 4.20, 3.76, 60.0, 0, 0.94, 0, 0.94, 11000, '고졸', '잔류', 0, 0],
    [2021, '롯데', '박세웅', 'SP', '우투', '다년계약', '다년계약', 2020, 25, 28, 28, 0, 8, 10, 0, 0, 0, 0, 147.1, 77, 177, 27, 2, 20, 47, 8, 108, 13, 4.70, 4.94, 147.1, 0, 2.91, 0, 2.91, 11000, '고졸', '잔류', 0, 0],
    [2022, '롯데', '박세웅', 'SP', '우투', '다년계약', '다년계약', 2021, 26, 28, 28, 0, 10, 9, 0, 0, 0, 0, 163.0, 72, 141, 24, 0, 20, 53, 10, 125, 17, 3.98, 4.51, 163.0, 0, 5.06, 0, 5.06, 16500, '고졸', '잔류', 0, 0],
    [2023, '롯데', '박세웅', 'SP', '우투', '다년계약', '다년계약', 2022, 27, 28, 28, 0, 10, 11, 0, 0, 0, 0, 157.1, 68, 179, 32, 4, 8, 32, 8, 146, 8, 3.89, 2.84, 157.1, 0, 3.31, 0, 3.31, 26000, '고졸', '잔류', 5, 90],
    [2024, '롯데', '박세웅', 'SP', '우투', 'FA 1년차', '다년계약', 2023, 28, 27, 27, 0, 9, 7, 0, 0, 0, 0, 154.0, 59, 145, 24, 0, 8, 59, 59, 129, 10, 3.45, 3.62, 154.0, 0, 4.21, 0, 4.21, 150000, '고졸', '잔류', 0, 0],

    [2019, 'SSG', '김광현', 'SP', '좌투', '다년계약', '다년계약', 2018, 30, 25, 25, 0, 11, 8, 0, 0, 0, 0, 136.0, 45, 125, 16, 2, 16, 30, 2, 130, 3, 2.98, 4.09, 136.0, 0, 5.99, 0, 5.99, 14000, '대졸', '잔류', 0, 0],
    [2020, 'SSG', '김광현', 'SP', '좌투', '다년계약', '다년계약', 2019, 31, 31, 30, 1, 17, 6, 0, 0, 0, 0, 190.1, 53, 198, 17, 0, 13, 38, 2, 180, 8, 2.51, 2.91, 190.0, 0.1, 7.13, -0.05, 7.08, 15000, '대졸', '잔류', 0, 0],
    [2021, '세인트루이스 카디널스', '김광현', 'SP', '좌투', '해외', '해외', 2020, 31, 8, 7, 1, 3, 0, 1, 0, 0, 0, 39, 7, 28, 9, 0, 3, 12, 0, 24, 1, 1.62, 3.88, 39, 0, 0.6, 0, 0.6, 400, '해외', '잔류', 0, 0],
    [2022, '세인트루이스 카디널스', '김광현', 'SP', '좌투', '해외', '해외', 2021, 32, 27, 21, 6, 7, 7, 1, 0, 0, 0, 106.2, 41, 98, 15, 1, 12, 39, 4, 80, 4, 3.46, 4.34, 106.2, 0, 1.2, 0, 1.2, 400, '해외계약', '잔류', 4, 151],
    [2023, 'SSG', '김광현', 'SP', '좌투', 'FA 1년차', '다년계약', 2022, 34, 28, 28, 0, 13, 3, 0, 0, 0, 0, 173.1, 41, 141, 16, 2, 10, 45, 5, 153, 1, 2.13, 3.14, 173.1, 0, 7.39, 0, 7.39, 810000, '대졸', '잔류', 0, 0],

    [2021,'토론토 블루제이스','류현진','SP','좌투','해외','해외',2020,33,12,12,0,5,2,0,0,0,0,67,20,60,12,0,8,17,1,72,1,2.69,3.01,67,0,1.9,0,1.9,740,'해외계약','잔류',0,0],
    [2022,'토론토 블루제이스','류현진','SP','좌투','해외','해외',2021,34,31,31,0,14,10,0,0,0,0,169,82,170,38,3,24,37,2,143,2,4.37,4.02,169,0,2.5,0,2.5,2000,'해외계약','잔류',0,0],
    [2023,'토론토 블루제이스','류현진','SP','좌투','해외','해외',2022,35,6,6,0,2,0,0,0,0,0,27,17,32,12,0,5,4,0,16,0,5.67,4.78,27,0,0.1,0,0.1,2000,'해외계약','잔류',0,0],
    [2024,'토론토 블루제이스','류현진','SP','좌투','해외','해외',2023,36,11,11,0,3,3,0,0,0,0,52,20,53,12,0,9,14,1,38,1,3.46,4.91,52,0,0.4,0,0.1,2000,'해외계약','잔류',8,170],
    [2025,'한화','류현진','SP','좌투','FA 1년차','해외',2024,37,28,28,0,10,8,0,0,0,0,158.1,68,182,22,1,12,33,3,135,1,3.87,3.67,158.1,0,4.44,0,4.44,250000,'해외계약','잔류',0,0],

    [2021,'키움','김상수','RP','우투','다년계약','다년계약',2020,32,60,0,60,3,5,5,3,11,1,51.1,27,52,12,0,3,21,3,48,1,4.73,3.74,0,51.1,0,0.48,0.48,30000,'다년계약','잔류',0,0],
    [2022,'SSG','김상수','RP','우투','다년계약','다년계약',2021,33,50,0,50,3,6,6,3,5,0,58.1,33,71,8,0,10,30,1,44,2,5.09,5.46,0,58.1,0,0.83,0.83,30000,'다년계약','잔류',0,0],
    [2023,'SSG','김상수','RP','우투','다년계약','다년계약',2022,34,8,0,8,0,1,1,0,0,0,8,8,9,2,1,2,4,1,3,0,9,7.76,0,8,0,-0.17,-0.17,30000,'다년계약','잔류',0,0],
    [2024,'롯데','김상수','RP','우투','다년계약','다년계약',2023,35,67,0,67,2,1,1,3,18,2,52,18,45,7,1,1,21,3,36,1,3.12,3.78,0,52,0,1.73,1.73,11000,'다년계약','잔류',2,6],
    [2025,'롯데','김상수','RP','우투','FA 1년차','다년계약',2024,36,74,0,74,4,2,2,3,17,1,73.2,34,71,11,1,5,26,5,56,6,4.15,4.33,0,73.2,0,1.12,1.12,16000,'다년계약','잔류',0,0],

    [2019,'KT','고영표','SP','우투','다년계약','다년계약',2018,27,25,23,2,6,9,0,0,0,0,142,81,175,27,4,17,25,14,134,2,5.13,4.26,139,3,2.71,0,2.71,11500,'다년계약','잔류',0,0],
    [2022,'KT','고영표','SP','우투','다년계약','다년계약',2021,30,26,25,1,11,6,0,0,1,0,166.2,54,147,20,2,9,27,14,130,1,2.92,3.22,163.2,3,6.18,0.08,6.26,12000,'다년계약','잔류',0,0],
    [2023,'KT','고영표','SP','우투','다년계약','다년계약',2022,31,28,28,0,13,8,0,0,0,0,182.1,66,191,31,3,7,23,16,156,1,3.26,2.75,182.1,0,6.13,0,6.13,30000,'다년계약','잔류',0,0],
    [2024,'KT','고영표','SP','우투','다년계약','다년계약',2023,32,28,17,1,12,7,0,0,0,0,174.2,54,181,27,5,7,19,9,114,6,2.78,3.19,174,0.2,6.76,0.02,6.77,43000,'다년계약','잔류',5,107],
    [2025,'KT','고영표','SP','우투','FA 1년차','다년계약',2024,33,18,17,1,6,8,0,0,0,0,100,55,141,27,4,6,14,11,79,2,4.95,3.71,95,5,1.62,0.24,1.86,200000,'다년계약','잔류',0,0],
    

    [2019,'NC','구창모','SP','좌투','다년계약','다년계약',2018,21,36,23,16,5,11,0,0,1,0,133,79,158,31,2,21,52,7,116,16,5.35,2.42,106.2,26.1,0.92,1.13,2.05,9000,'다년계약','잔류',0,0],
    [2020,'NC','구창모','SP','좌투','다년계약','다년계약',2019,22,23,19,4,10,7,0,0,1,0,107,38,85,15,2,10,41,6,114,7,3.2,3.62,101,6,3.28,0.3,3.58,12500,'다년계약','잔류',0,0],
    [2021,'NC','구창모','SP','좌투','다년계약','다년계약',2020,23,15,14,1,9,0,0,0,1,0,93.1,18,58,12,0,7,18,0,102,2,1.74,2.75,92,1.1,5.25,0.14,5.39,18000,'다년계약','잔류',0,0],
    [2023,'NC','구창모','SP','좌투','다년계약','다년계약',2022,25,19,19,0,11,5,0,0,0,0,111.2,26,92,16,0,7,29,4,108,7,2.1,3.03,111.2,0,4.79,0,4.79,19000,'다년계약','잔류',6,125],
    [2024,'NC','구창모','SP','좌투','FA 1년차','다년계약',2023,26,11,9,2,1,3,0,0,0,0,51.2,17,38,3,0,4,16,0,56,0,2.96,3.02,47,4.2,1.55,0.32,1.87,60000,'다년계약','잔류',0,0],

]

# 2. DataFrame으로 변환 (컬럼명은 df1.columns 그대로 사용)
new_df = pd.DataFrame(new_rows, columns=df1.columns)

# 3. 기존 df1에 추가
df1 = pd.concat([df1, new_df], ignore_index=True)

In [83]:
print("🔍 [결측치 개수]")
print("▶ df1:\n", df1.isnull().sum().sort_values(ascending=False))

🔍 [결측치 개수]
▶ df1:
 FA년도        0
구단명         0
3루타허용       0
피홈런         0
볼넷허용        0
사구허용        0
탈삼진         0
폭투          0
ERA         0
FIP         0
선발 이닝       0
구원 이닝       0
선발 WAR      0
구원 WAR      0
종합 WAR      0
연봉          0
비고1         0
잔류 여부       0
FA 계약 연수    0
2루타허용       0
피안타         0
자책점         0
게임수         0
선수명         0
세부 포지션      0
투           0
구분          0
FA등급        0
플레이년도       0
나이          0
선발등판        0
이닝수         0
구원등판        0
승리          0
패전          0
세이브         0
블론세이브       0
홀드          0
블론홀드        0
FA 계약 총액    0
dtype: int64


In [84]:
df1.to_csv("KBO FA 투수 [2013-2024]_최종_전처리.csv", index=False, encoding='utf-8-sig')