In [None]:
import os
os.environ["OMP_NUM_THREADS"] = "1"

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

np.set_printoptions(suppress=True,  # 지수 표기법 억제 (예: 1e-10 대신 0.0000000001로 표시)
                    precision=8)    # 소수점 이하 자리수를 8자리로 표현

### 데이터 준비

In [None]:
hitter1 = pd.read_csv('data/2000_2001_hitter.csv')
hitter2 = pd.read_csv('data/2002_2013_hitter.csv')
hitter3 = pd.read_csv('data/2014_hitter.csv')

# 데이터프레임 병합 
df = pd.concat([hitter1, hitter2, hitter3], 
                          ignore_index=True) # 기존 인덱스 무시
df.head()

### 데이터 전처리

In [None]:
# -------------
# 변수 선택
# -------------
X = df[['OPS','ISO','SECA','TA','RC','RC/27','wOBA','XR']].copy()
X.head()

In [None]:
# -------------
# 데이터 분포 확인
# -------------
sns.boxplot(X)

In [None]:
# -------------
# 데이터 스케일링
# -------------
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
X_scaled = pd.DataFrame(X_scaled, columns = X.columns)
X_scaled

In [None]:
X_scaled.describe()

In [None]:
sns.boxplot(X_scaled)

### 군집화

#### 최적의 k 찾기

In [None]:
# 엘보우 기법으로 최적의 k 찾기
from sklearn.cluster import KMeans
inertia = []
for n in range(2,7):
    km = KMeans(n_clusters=n)
    km.fit(X_scaled)
    print(km.inertia_)
    inertia.append(km.inertia_)

In [None]:
plt.plot(range(2,7), inertia, marker='o')
plt.xticks(range(2,7))
plt.xlabel('k')
plt.ylabel('inertia')
plt.show()

In [None]:
# ------------------
# 실루엣 계수로 찾기
# ------------------
from sklearn.metrics import silhouette_score
for k in range(2,7):
    km = KMeans(n_clusters=k)
    km.fit(X_scaled)
    score = silhouette_score(X_scaled, km.labels_)
    print(f'k:{k} ==> {score}')

In [None]:
# ------------------
# 실루엣 그래프로 찾기
# ------------------
from silhouette_analysis import silhouette_plot
for k in range(2,7):
    silhouette_plot(X_scaled, k)

#### 군집화

In [None]:
# -----------------------
# k-means clustering
# -----------------------


### 군집화 결과 분석

In [None]:
# -----------------------
# 군집 라벨을 데이터프레임의 컬럼으로 추가
# -----------------------


In [None]:
# ---------------------------
# 군집의 특성 분석
#   - 군집별 데이터 분포 확인
# ---------------------------


In [None]:
# ---------------------------
# 선수별 군집 확인
#   - 데이터프레임에 선수 이름 추가
# ---------------------------

In [None]:
# ---------------------------
# 잘못 군집화 된 데이터
#   개별 실루엣 계수가 0보다 작은 데이터
# ---------------------------

In [None]:
# ---------------------------
# 군집의 중심에 있는 선수
#   군집별 실루엣 계수 최대인 데이터
# ---------------------------