In [19]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# CSV 또는 엑셀 파일 로드
# df = pd.read_excel('pitchers_data.xlsx')  # 엑셀일 경우
df = pd.read_csv('dataset.csv')      # CSV일 경우

# 열 이름 공백 제거
df.columns = df.columns.str.strip()

# 연봉 전처리
df['연봉'] = df['연봉'].astype(str).str.replace(',', '')
df['salary'] = pd.to_numeric(df['연봉'], errors='coerce')
df = df[df['salary'] > 0]
df['log_salary'] = np.log(df['salary'])

# 컬럼명 정리
df = df.rename(columns={
    'W': 'W',
    'ERA': 'ERA',
    'WAR': 'WAR',
    'IP': 'IP',
    'RS': 'RS',
    'FA': 'FA',
    'Age': 'age',
    'Team': 'team'
})

# 사용할 변수들만 추출 (팀 제거, 나이는 통제용)
selected_vars = ['W', 'ERA', 'WAR', 'IP', 'age']
X = df[selected_vars]
X = sm.add_constant(X).astype(float)  # 상수항 추가 + float 변환
y = df['log_salary'].astype(float)

# 회귀 모델 적합
model = sm.OLS(y, X).fit()

# 결과 출력
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:             log_salary   R-squared:                       0.557
Model:                            OLS   Adj. R-squared:                  0.517
Method:                 Least Squares   F-statistic:                     13.84
Date:                Sun, 25 May 2025   Prob (F-statistic):           9.36e-09
Time:                        20:51:33   Log-Likelihood:                -65.380
No. Observations:                  61   AIC:                             142.8
Df Residuals:                      55   BIC:                             155.4
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          5.1452      0.641      8.024      0.0

In [20]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 📁 1. CSV 파일 불러오기
df = pd.read_csv('dataset.csv')  # 파일명은 상황에 맞게 수정하세요

# 🧼 2. 열 이름 공백 제거
df.columns = df.columns.str.strip()

# 💰 3. 연봉 전처리
df['연봉'] = df['연봉'].astype(str).str.replace(',', '', regex=False)
df['salary'] = pd.to_numeric(df['연봉'], errors='coerce')
df = df[df['salary'] > 0]  # 연봉이 0보다 큰 값만 사용
df['log_salary'] = np.log(df['salary'])  # 로그 변환

# 🏷️ 4. 컬럼명 영문화 (필요시)
df = df.rename(columns={
    'W': 'W',
    'ERA': 'ERA',
    'WAR': 'WAR',
    'Age': 'age',
    'Team': 'team'
})

# 🧮 5. age 제곱항 추가 (age_squared)
df['age_squared'] = df['age'] ** 2

# 📊 6. 회귀분석용 변수 선택 (age는 제외!)
selected_vars = ['W', 'ERA', 'WAR', 'age_squared']
X = df[selected_vars]
X = sm.add_constant(X).astype(float)
y = df['log_salary'].astype(float)

# 🧠 7. OLS 회귀 실행
model = sm.OLS(y, X).fit()

# 📈 8. 결과 출력
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:             log_salary   R-squared:                       0.517
Model:                            OLS   Adj. R-squared:                  0.483
Method:                 Least Squares   F-statistic:                     14.99
Date:                Sun, 25 May 2025   Prob (F-statistic):           2.19e-08
Time:                        20:55:18   Log-Likelihood:                -68.030
No. Observations:                  61   AIC:                             146.1
Df Residuals:                      56   BIC:                             156.6
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                  coef    std err          t      P>|t|      [0.025      0.975]
-------------------------------------------------------------------------------
const           7.0970      0.350     20.276      

In [21]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 📁 1. CSV 파일 불러오기
df = pd.read_csv('dataset.csv')  # 파일명은 상황에 맞게 수정하세요

# 🧼 2. 열 이름 공백 제거
df.columns = df.columns.str.strip()

# 💰 3. 연봉 전처리
df['연봉'] = df['연봉'].astype(str).str.replace(',', '', regex=False)
df['salary'] = pd.to_numeric(df['연봉'], errors='coerce')
df = df[df['salary'] > 0]  # 연봉이 0보다 큰 값만 사용
df['log_salary'] = np.log(df['salary'])  # 로그 변환

# 🏷️ 4. 컬럼명 영문화
df = df.rename(columns={
    'W': 'W',
    'ERA': 'ERA',
    'WAR': 'WAR',
    'Age': 'age',
    'Team': 'team'
})

# 📊 5. age 중심화 및 제곱항 생성 (mean-centering)
df['age_centered'] = df['age'] - df['age'].mean()
df['age_centered_squared'] = df['age_centered'] ** 2

# 📈 6. 회귀 변수 설정
selected_vars = ['W', 'ERA', 'WAR', 'age_centered', 'age_centered_squared']
X = df[selected_vars]
X = sm.add_constant(X).astype(float)
y = df['log_salary'].astype(float)

# 🧠 7. 회귀분석 실행
model = sm.OLS(y, X).fit()

# 📋 8. 결과 출력
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:             log_salary   R-squared:                       0.520
Model:                            OLS   Adj. R-squared:                  0.476
Method:                 Least Squares   F-statistic:                     11.92
Date:                Sun, 25 May 2025   Prob (F-statistic):           7.82e-08
Time:                        20:58:30   Log-Likelihood:                -67.842
No. Observations:                  61   AIC:                             147.7
Df Residuals:                      55   BIC:                             160.3
Df Model:                           5                                         
Covariance Type:            nonrobust                                         
                           coef    std err          t      P>|t|      [0.025      0.975]
----------------------------------------------------------------------------------------
const                    9.0376 

In [22]:
import pandas as pd
import numpy as np
import statsmodels.api as sm

# 1. 데이터 불러오기
df = pd.read_csv('dataset.csv')  # 파일명 바꿔주세요

# 2. 열 이름 공백 제거
df.columns = df.columns.str.strip()

# 3. 연봉 전처리
df['연봉'] = df['연봉'].astype(str).str.replace(',', '', regex=False)
df['salary'] = pd.to_numeric(df['연봉'], errors='coerce')
df = df[df['salary'] > 0]
df['log_salary'] = np.log(df['salary'])

# 4. 선수별 연도 정렬
df = df.sort_values(by=['Name', 'Year']).reset_index(drop=True)

# 5. 전년도 성적 변수 생성
for var in ['W', 'ERA', 'WAR', 'Age']:
    df[f'{var}_prev'] = df.groupby('Name')[var].shift(1)

# 6. 분석용 데이터 선택
model_df = df.dropna(subset=['log_salary', 'W_prev', 'ERA_prev', 'WAR_prev', 'Age_prev'])

# 7. 회귀 독립변수 & 종속변수 설정
X = model_df[['W_prev', 'ERA_prev', 'WAR_prev', 'Age_prev']]
X = sm.add_constant(X)
y = model_df['log_salary']

# 8. 회귀 실행
model = sm.OLS(y, X).fit()

# 9. 결과 출력
print(model.summary())

                            OLS Regression Results                            
Dep. Variable:             log_salary   R-squared:                       0.703
Model:                            OLS   Adj. R-squared:                  0.675
Method:                 Least Squares   F-statistic:                     25.40
Date:                Sun, 25 May 2025   Prob (F-statistic):           7.65e-11
Time:                        21:07:41   Log-Likelihood:                -40.658
No. Observations:                  48   AIC:                             91.32
Df Residuals:                      43   BIC:                             100.7
Df Model:                           4                                         
Covariance Type:            nonrobust                                         
                 coef    std err          t      P>|t|      [0.025      0.975]
------------------------------------------------------------------------------
const          6.4177      0.594     10.802      0.0