<a href="https://colab.research.google.com/github/haaraamk/Hanhwa_baseball_data_analysis/blob/main/mann_whitney_u_test.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 맨휘트니 U test

### 맨휘트니 U 검정의 특징과 사용 조건
비모수적 방법: 데이터가 정규 분포를 따를 필요가 없습니다.
순위 기반: 데이터를 순위로 변환하여 검정합니다.
표본 크기의 차이: 두 집단의 표본 크기가 달라도 사용할 수 있습니다.
대응되지 않은 데이터: 독립적인 두 집단 간의 비교에 적합합니다.

### 절차
두 집단의 데이터를 결합: 두 집단의 데이터를 하나로 결합합니다.
데이터 순위 매기기: 결합된 데이터를 오름차순으로 정렬하고 각 데이터 포인트에 순위를 부여합니다.
순위 합 계산: 각 집단의 순위 합을 계산합니다.
U 값 계산: 각 집단에 대해 U 값을 계산합니다.
유의성 검정: U 값을 사용하여 두 집단 간 차이가 유의미한지 판단합니다.



In [None]:
from google.colab import drive

# Google Drive 마운트
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
dpath = "/content/drive/MyDrive/hanwha_project/data/"

In [None]:
import pandas as pd
from scipy.stats import mannwhitneyu

# 데이터프레임으로 파일 읽기
# 외국인 타자
df_h = pd.read_csv(dpath+ 'df_Foreign_Hitter.csv')
df_hh = pd.read_csv(dpath+ 'df_Hanwha_Foreign_Hitter.csv')
# 외국인 투수
df_p = pd.read_csv(dpath+ 'df_Foreign_Pitcher.csv')
df_hp = pd.read_csv(dpath+ 'df_Hanwha_Foreign_Pitcher.csv')
# 신인 타자
df_hnh = pd.read_csv(dpath+ 'df_Hanwha_New_Hitter.csv')
df_nh = pd.read_csv(dpath+ 'df_New_Hitter.csv')
# 신인 투수
df_hnp = pd.read_csv(dpath+ 'df_Hanwha_New_Pitcher.csv')
df_np = pd.read_csv(dpath+ 'df_New_Pitcher.csv')

# 외국인 타자

In [None]:
df_h.columns

Index(['Rank', 'Name', 'Team', 'WAR', 'oWAR(공격)', 'dWAR(수비)', 'G', 'PA(타석)',
       'ePA(실질타석)', 'AB(타수)', 'R(득점)', 'H(안타)', '2B', '3B', 'HR', 'TB(루타)',
       'RBI(타점)', 'SB(도루)', 'CS(도루실패)', 'BB(4구)', 'HP(사구)', 'IB(고의4구)',
       'SO(삼진)', 'GDP(병살타)', 'SH(희생타)', 'SF(희생플라이)', 'AVG(타율)', 'OBP(출루율)',
       'SLG(장타율)', 'OPS', 'R/ePA', 'wRC+(득점 창출력)', 'WAR.1'],
      dtype='object')

In [None]:
df_hh.columns

Index(['이름', 'Div.', 'Year', 'Team', 'Age', 'Pos.', 'oWAR(공격)', 'dWAR(수비)',
       'G', 'PA(타석)', 'ePA(실질타석)', 'AB(타수)', 'R(득점)', 'H(안타)', '2B', '3B',
       'HR', 'TB(루타)', 'RBI(타점)', 'SB(도루)', 'CS(도루실패)', 'BB(4구)', 'HP(사구)',
       'IB(고의4구)', 'SO(삼진)', 'GDP(병살타)', 'SH(희생타)', 'SF(희생플라이)', 'AVG(타율)',
       'OBP(출루율)', 'SLG(장타율)', 'OPS', 'R/ePA', 'wRC+(득점 창출력)', 'WAR'],
      dtype='object')

In [None]:
# df_fh에서 '이름' 칼럼을 리스트로 변환
names_to_remove = df_hh['이름'].tolist()

# df_h에서 'Name' 칼럼이 names_to_remove 리스트에 있는 행을 삭제
df_h_filtered = df_h[~df_h['Name'].isin(names_to_remove)]

# 필요한 칼럼만 추출
df_h = df_h_filtered[['Name', 'OPS', 'wRC+(득점 창출력)', 'WAR']]

# 칼럼 이름 재설정
df_h = df_h.rename(columns={
    'wRC+(득점 창출력)': 'wRC+'
})

# 필요한 칼럼만 추출
df_hh = df_hh[['이름', 'OPS', 'wRC+(득점 창출력)', 'WAR']]

# 칼럼명 변경
df_hh = df_hh.rename(columns={
    'wRC+(득점 창출력)': 'wRC+',
    '이름' : 'Name'
})

In [None]:
df_hh.head()

Unnamed: 0,Name,OPS,wRC+,WAR
0,페라자,0.983,158.0,2.03
1,윌리엄스,0.678,82.6,-0.81
2,터크먼,0.796,123.5,4.06
3,힐리,0.7,86.0,0.63
4,페레즈,0.732,94.1,0.72


In [None]:
# 칼럼 추출
ops_h = df_h['OPS']
ops_fh = df_hh['OPS']

wrc_h = df_h['wRC+']
wrc_fh = df_hh['wRC+']

war_h = df_h['WAR']
war_fh = df_hh['WAR']

# Mann-Whitney U 검정 시행
ops_stat, ops_p = mannwhitneyu(ops_h, ops_fh)
wrc_stat, wrc_p = mannwhitneyu(wrc_h, wrc_fh)
war_stat, war_p = mannwhitneyu(war_h, war_fh)

# 결과 출력
print(f'OPS Mann-Whitney U test: U={ops_stat}, p={ops_p}')
print(f'wRC+ Mann-Whitney U test: U={wrc_stat}, p={wrc_p}')
print(f'WAR Mann-Whitney U test: U={war_stat}, p={war_p}')

OPS Mann-Whitney U test: U=203.0, p=0.13402592451858658
wRC+ Mann-Whitney U test: U=211.0, p=0.08646083442335226
WAR Mann-Whitney U test: U=199.0, p=0.16440153701914428


검정 결과 세 지표 모두 P값이 매우 작지만 통상적으로 사용되는 유의수준인 0.05보다는 크다. 그러나 모두 P-value가 0.2 이하인 것은 사실상 한화와 그 외의 팀들의 외국인 투수의 능력에 차이가 있다 볼 수 있다.

# 외국인 투수

In [None]:
df_p.columns

Index(['Rank', 'Name', 'Team', 'WAR', 'G', 'GS(선발)', 'GR(구원)', 'GF(마무리)',
       'CG(완투)', 'SHO(완봉)', 'W(승)', 'L(패)', 'S(세이브)', 'HD(홀드)', 'IP(이닝)',
       'ER(자책점)', 'R(실점)', 'rRA(책임 실점)', 'TBF(상대한 타자 수)', 'H(안타)', '2B', '3B',
       'HR', 'BB(4구)', 'HP(사구)', 'IB(고의사구)', 'SO(삼진)', 'ROE(실책 출루 허용 횟수)',
       'BK(보크)', 'WP(폭투)', 'ERA(평균자책점)', 'RA9(9이닝당 실점)', 'rRA9(9이닝 당 책임실점)',
       'rRA9pf(파크팩터 적용 ver)', 'FIP(수비 무관 평균자책점)', 'WHIP(이닝 당 출루허용률)', 'WAR.1'],
      dtype='object')

In [None]:
df_hp.columns

Index(['이름', 'Div.', 'Year', 'Team', 'Age', 'Pos.', 'G', 'GS(선발)', 'GR(구원)',
       'GF(마무리)', 'CG(완투)', 'SHO(완봉)', 'W(승)', 'L(패)', 'S(세이브)', 'HD(홀드)',
       'IP(이닝)', 'ER(자책점)', 'R(실점)', 'rRA(책임 실점)', 'TBF(상대한 타자 수)', 'H(안타)',
       '2B', '3B', 'HR', 'BB(4구)', 'HP(사구)', 'IB(고의사구)', 'SO(삼진)',
       'ROE(실책 출루 허용 횟수)', 'BK(보크)', 'WP(폭투)', 'ERA(평균자책점)', 'RA9(9이닝당 실점)',
       'rRA9(9이닝 당 책임실점)', 'rRA9pf(파크팩터 적용 ver)', 'FIP(수비 무관 평균자책점)',
       'WHIP(이닝 당 출루허용률)', 'WAR'],
      dtype='object')

In [None]:
# df_fh에서 '이름' 칼럼을 리스트로 변환
names_to_remove = df_hp['이름'].tolist()

# df_h에서 'Name' 칼럼이 names_to_remove 리스트에 있는 행을 삭제
df_p_filtered = df_p[~df_p['Name'].isin(names_to_remove)]

# 필요한 칼럼만 추출
df_p = df_p_filtered[['Name', 'ERA(평균자책점)', 'WHIP(이닝 당 출루허용률)', 'WAR']]

# 칼럼 이름 재설정
df_p = df_p.rename(columns={
    'ERA(평균자책점)': 'ERA',
    'WHIP(이닝 당 출루허용률)' : 'WHIP'
})

# 필요한 칼럼만 추출
df_hp = df_hp[['이름', 'ERA(평균자책점)', 'WHIP(이닝 당 출루허용률)', 'WAR']]

# 칼럼명 변경
df_hp = df_hp.rename(columns={
    'ERA(평균자책점)': 'ERA',
    'WHIP(이닝 당 출루허용률)' : 'WHIP',
    '이름' : 'Name'
})

In [None]:
# 칼럼 추출
era_p = df_p['ERA']
era_hp = df_hp['ERA']

whip_p = df_p['WHIP']
whip_hp = df_hp['WHIP']

war_p = df_p['WAR']
war_hp = df_hp['WAR']

# Mann-Whitney U 검정 시행
era_stat, era_p = mannwhitneyu(era_p, era_hp)
whip_stat, whip_p = mannwhitneyu(whip_p, whip_hp)
war_stat, war_p = mannwhitneyu(war_p, war_hp)

# 결과 출력
print(f'ERA Mann-Whitney U test: U={era_stat}, p={era_p}')
print(f'WHIP Mann-Whitney U test: U={whip_stat}, p={whip_p}')
print(f'WAR Mann-Whitney U test: U={war_stat}, p={war_p}')

ERA Mann-Whitney U test: U=257.5, p=0.04638389036410223
WHIP Mann-Whitney U test: U=292.0, p=0.11019770819905327
WAR Mann-Whitney U test: U=515.5, p=0.3420617500936528


여기서도 WAR을 제외하면 상당히 통계적으로 유의하다고 볼 수 있다.

# 신인 타자

In [None]:
df_nh.columns

Index(['이름', 'Div.', 'Year', 'Team', 'Age', 'Pos.', 'oWAR(공격)', 'dWAR(수비)',
       'G', 'PA(타석)', 'ePA(실질타석)', 'AB(타수)', 'R(득점)', 'H(안타)', '2B', '3B',
       'HR', 'TB(루타)', 'RBI(타점)', 'SB(도루)', 'CS(도루실패)', 'BB(4구)', 'HP(사구)',
       'IB(고의4구)', 'SO(삼진)', 'GDP(병살타)', 'SH(희생타)', 'SF(희생플라이)', 'AVG(타율)',
       'OBP(출루율)', 'SLG(장타율)', 'OPS', 'R/ePA', 'wRC+(득점 창출력)', 'WAR'],
      dtype='object')

In [None]:
# df_hnh에서 '이름' 칼럼을 리스트로 변환
names_to_remove = df_hnh['이름'].tolist()

# df_nh에서 'Name' 칼럼이 names_to_remove 리스트에 있는 행을 삭제
df_nh_filtered = df_nh[~df_nh['이름'].isin(names_to_remove)]

# 필요한 칼럼만 추출
df_nh = df_nh_filtered[['이름', 'OPS', 'wRC+(득점 창출력)', 'WAR']]

# 칼럼 이름 재설정
df_nh = df_nh.rename(columns={
    'wRC+(득점 창출력)': 'wRC+',
    '이름': 'Name'
})

# 필요한 칼럼만 추출
df_hnh = df_hnh[['이름', 'OPS', 'wRC+(득점 창출력)', 'WAR']]

# 칼럼명 변경
df_hnh = df_hnh.rename(columns={
    'wRC+(득점 창출력)': 'wRC+',
    '이름': 'Name'
})


# 칼럼 추출
ops_nh = df_nh['OPS']
ops_hnh = df_hnh['OPS']

wrc_nh = df_nh['wRC+']
wrc_hnh = df_hnh['wRC+']

war_nh = df_nh['WAR']
war_hnh = df_hnh['WAR']

# Mann-Whitney U 검정 시행
ops_stat, ops_p = mannwhitneyu(ops_nh, ops_hnh)
wrc_stat, wrc_p = mannwhitneyu(wrc_nh, wrc_hnh)
war_stat, war_p = mannwhitneyu(war_nh, war_hnh)

# 결과 출력
print(f'OPS Mann-Whitney U test: U={ops_stat}, p={ops_p}')
print(f'wRC+ Mann-Whitney U test: U={wrc_stat}, p={wrc_p}')
print(f'WAR Mann-Whitney U test: U={war_stat}, p={war_p}')

OPS Mann-Whitney U test: U=136.0, p=0.39047460843310666
wRC+ Mann-Whitney U test: U=130.0, p=0.5262350868226021
WAR Mann-Whitney U test: U=133.0, p=0.45105342224335077


p-value를 확인해 보니 셋 다 통계적으로 유의하지 않다.

# 신인 투수

In [None]:
df_hnp.head()

Unnamed: 0,이름,Div.,Year,Team,Age,Pos.,G,GS(선발),GR(구원),GF(마무리),...,ROE(실책 출루 허용 횟수),BK(보크),WP(폭투),ERA(평균자책점),RA9(9이닝당 실점),rRA9(9이닝 당 책임실점),rRA9pf(파크팩터 적용 ver),FIP(수비 무관 평균자책점),WHIP(이닝 당 출루허용률),WAR
0,한승주,베스트,2023,한화,21,P,47.0,6,41,12,...,1,0,5,3.95,4.33,4.8,4.75,4.45,1.58,0.57
1,강재민,베스트,2021,한화,23,P,58.0,0,58,18,...,4,1,1,2.13,2.27,3.21,3.37,3.39,1.22,1.79
2,김기중,베스트,2023,한화,20,P,37.0,6,31,6,...,2,0,2,4.63,5.27,4.67,4.67,4.69,1.54,0.67
3,문동주,베스트,2023,한화,19,P,23.0,23,0,0,...,2,1,5,3.72,3.94,3.79,3.82,3.65,1.31,2.96


In [None]:
# df_hnp에서 '이름' 칼럼을 리스트로 변환
names_to_remove = df_hnp['이름'].tolist()

# df_np에서 'Name' 칼럼이 names_to_remove 리스트에 있는 행을 삭제
df_np_filtered = df_np[~df_np['이름'].isin(names_to_remove)]

# 필요한 칼럼만 추출
df_np = df_np_filtered[['이름', 'ERA(평균자책점)', 'WHIP(이닝 당 출루허용률)', 'WAR']]

# 칼럼 이름 재설정
df_np = df_np.rename(columns={
    'ERA(평균자책점)': 'ERA',
    'WHIP(이닝 당 출루허용률)': 'WHIP',
    '이름': 'Name'
})

# 필요한 칼럼만 추출
df_hnp = df_hnp[['이름', 'ERA(평균자책점)', 'WHIP(이닝 당 출루허용률)', 'WAR']]

# 칼럼명 변경
df_hnp = df_hnp.rename(columns={
    'ERA(평균자책점)': 'ERA',
    'WHIP(이닝 당 출루허용률)': 'WHIP',
    '이름': 'Name'
})

# 칼럼 추출
era_np = df_np['ERA']
era_hnp = df_hnp['ERA']

whip_np = df_np['WHIP']
whip_hnp = df_hnp['WHIP']

war_np = df_np['WAR']
war_hnp = df_hnp['WAR']

# Mann-Whitney U 검정 시행
era_stat, era_p = mannwhitneyu(era_np, era_hnp)
whip_stat, whip_p = mannwhitneyu(whip_np, whip_hnp)
war_stat, war_p = mannwhitneyu(war_np, war_hnp)

# 결과 출력
print(f'ERA Mann-Whitney U test: U={era_stat}, p={era_p}')
print(f'WHIP Mann-Whitney U test: U={whip_stat}, p={whip_p}')
print(f'WAR Mann-Whitney U test: U={war_stat}, p={war_p}')

ERA Mann-Whitney U test: U=81.0, p=0.9846370683579988
WHIP Mann-Whitney U test: U=76.5, p=0.8418911632322075
WAR Mann-Whitney U test: U=73.0, p=0.7345876062694617


p-value를 확인해보니 셋다 통계적으로 유의하지 않다

# 결론

외국인 투수, 타자에 있어서는 한화 선수들이 유의미하게 저조한 성적을 낸다는 것을 비모수적 검정으로 확인할 수 있었다.  

그러나 신인 투수, 타자에 대해서는 한화 선수들과 타팀 선수들 간의 유의미한 실력 차이가 없다는 것을 확인할 수 있었다.  

따라서 한화의 외국인 스카우팅 시스템에 문제가 있다고 볼 수 있다.
