# 5-1. Supervised Learning
이번 실습에서는 머신러닝의 대표적인 방법인 **지도 학습(Supervised Learning)**을 알아보도록 하겠습니다.<br>
<br>
지도 학습(Supervised Learning)은 비지도 학습과 다르게 **정답 레이블(Label)**이 있습니다.<br>
주어진 데이터를 기반으로 정답 레이블을 잘 맞히도록 가중치를 학습하는 과정을 **지도 학습**이라고 할 수 있습니다.<br>
지도 학습은 또 크게 2가지 문제로 나뉩니다. 바로 **분류(Classification)**와 **회귀(Regression)**입니다.<br>
분류는 범주형 데이터를 예측하는 것, 회귀는 연속형 데이터를 예측하는 것으로 생각하면 쉽습니다.<br>
오늘 진행할 과제는 **축구 선수들의 능력치로 포지션을 예측**하는 분류 문제입니다.<br>
<br>
**학습 목표**
1. 학습 데이터 전처리
2. Scikit-Learn 라이브러리 활용법
3. 파이프라인 생성 후 학습
4. 모델 평가(Metric)
5. 하이퍼 파라미터 튜닝

In [1]:
# 기본적으로 필요한 시각화 라이브러리를 불러오기
from matplotlib import font_manager, rc, rcParams
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# 시각화 설정

# Seaborn에서 기본 스타일을 지정할 수 있습니다.
sns.set_style('whitegrid')

## 데이터 전처리

In [None]:
# Pandas 및 정규표현식 불러오기
import pandas as pd
import re

In [None]:
import os

path = # Your Path
filename = 'FIFA22_official_data.csv'
df = pd.read_csv(os.path.join(path, filename) , encoding = 'utf-8'); df

In [None]:
# 데이터프레임 정보 확인


In [None]:
# 포지션 예측을 위한 컬럼 확인 'Name','Position','Best Position'


In [None]:
# 포지션 확인


In [None]:
# 포지션별 카운트
plt.figure(figsize = (6,3), dpi = 150)
#
plt.show()

### 레이블 인코딩

In [None]:
# 데이터 레이블 인코딩
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder() # 레이블 인코더는 정수 인덱스로 바꾸어줍니다. 나중에 One-hot Encoding과 비교해서 참고해보시면 좋아요.

In [None]:
# 정답 레이블 인코딩
y = encoder.fit_transform(df['Best Position']); y # 정답 레이블을 정수 인덱스로 반환하였습니다.
# 다시 정수를 문자열로 알아보고 싶다면 encoder.inverse_transform(y)를 실행하시면 됩니다.

### 특성(Feature) 선택

In [None]:
# 컬럼 인덱스 확인하기
for i, v in enumerate(df.columns):
    print(i, v)

In [None]:
# 학습 데이터 생성


In [None]:
# 결측치 개수 확인


In [None]:
# Marking 컬럼 제거


### 결측 데이터 보간

In [None]:
# 결측 데이터 확인
df[df['Volleys'].isnull()]

In [None]:
# 결측 데이터 보간
x.interpolate(axis = 1, inplace = True)

In [None]:
# (참고) k-NN으로 보간
from sklearn.impute import KNNImputer
imputer = KNNImputer(n_neighbors=3)
# x = imputer.fit_transform(x)

## 포지션 분류

### 학습-훈련 데이터셋 구축
사이킷런에서 제공하는 `train_test_split`을 이용하면 편리하게 구분할 수 있습니다.<br>
test_size에는 비율만 입력하면 임의로 학습 데이터와 훈련 데이터를 분리해줍니다.<br>
직접 30%를 분리해도 괜찮지만 랜덤하게 샘플링하려면 이 방법이 훨씬 편리합니다.<br>
테스트셋의 사이즈는 보통 20~30%로 설정합니다.<br>
학습에 데이터가 부족하지는 않기 때문에 30%로 설정하였습니다.

In [None]:
# 학습-훈련 데이터셋 분리
from sklearn.model_selection import train_test_split

# Your Code

In [None]:
# k-NN
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Your Code
print('k-NN 모델의 정확도:', '%.4f'%acc)

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

# 데이터 정규화와 파이프 라인 설계
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('knn', KNeighborsClassifier(n_neighbors=100))
                     ])
pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)
acc = accuracy_score(y_test, y_pred)
print('정규화된 k-NN 모델의 정확도:', '%.4f'%acc)

In [None]:
from sklearn.tree import DecisionTreeClassifier

# 의사 결정 나무
dt = DecisionTreeClassifier(max_depth = 10)
dt.fit(x_train,y_train)
y_pred = dt.predict(x_test)
acc = accuracy_score(y_test,y_pred)
print('Decision Tree 모델의 정확도:', '%.4f'%acc)

In [None]:
# 의사 결정 나무 - 정규화
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('dt', DecisionTreeClassifier(max_depth = 10))
                     ])
pipeline.fit(x_train,y_train)
y_pred = dt.predict(x_test)
acc = accuracy_score(y_test,y_pred)
print('Decision Tree 모델의 정확도:', '%.4f'%acc)

In [None]:
# 랜덤 포레스트
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(max_depth = 15, random_state = 319)

rf.fit(x_train, y_train)
y_pred = rf.predict(x_test)
acc = accuracy_score(y_test, y_pred)
print('Ramdom Forest 모델의 정확도:', '%.4f'%acc)

In [None]:
# 랜덤 포레스트 - 정규화
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('rf', RandomForestClassifier(max_depth = 15, random_state = 319))
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)
acc = accuracy_score(y_test, y_pred)
print('Ramdom Forest 모델의 정확도:', '%.4f'%acc)

In [None]:
# XGBoost
import xgboost
from xgboost import XGBClassifier

xgb = XGBClassifier(max_depth=15, tree_method='gpu_hist')
xgb.fit(x_train, y_train)
y_pred = xgb.predict(x_test)
acc = accuracy_score(y_test, y_pred)
print('XGBoost 모델의 정확도:', '%.4f'%acc)

In [None]:
# Support Vector Machine Classifier
from sklearn.svm import SVC
svc = SVC(C =100)
svc.fit(x_train, y_train)
y_pred = svc.predict(x_test)
acc = accuracy_score(y_test, y_pred)
print('Support Vector Machine 모델의 정확도:', '%.4f'%acc)

In [None]:
# Logistic Regression
from sklearn.linear_model import LogisticRegression

# Your Code
print('Logistic Regression 모델의 정확도:', '%.4f'%acc)

In [None]:
# Logistic Regression의 계수
matrix = pd.DataFrame(pipeline['lr'].coef_, columns = x_train.columns, index = encoder.inverse_transform(range(15)))

plt.figure(figsize = (13,3), dpi = 150)
sns.heatmap(matrix, cmap = 'vlag')
plt.show()

In [None]:
y_test_label = encoder.inverse_transform(y_test)
y_pred_label = encoder.inverse_transform(y_pred)

In [None]:
# 실제 값과 예측값 비교
pred = pd.DataFrame(zip(y_test_label, y_pred_label), columns = ['test', 'pred'])
pred

In [None]:
error = pred[pred['test'] != pred['pred']].copy()

In [None]:
# 피벗테이블을 통해 히트맵 시각화를 위한 표 만들기
error['count'] = 1 # 이렇게 하면 count를 모두 1로 지정할 수 있습니다.
error = error.pivot_table(values = 'count', columns = 'test', index = 'pred', aggfunc = 'sum').copy(); error

In [None]:
# 잘못 분류된 레이블 히트맵 시각화
plt.figure(figsize = (7,3), dpi = 150)
sns.heatmap(error, cmap = 'flare')
plt.show()

In [None]:
def error_heatmap(y_test,y_pred):
    y_test_label = encoder.inverse_transform(y_test)
    y_pred_label = encoder.inverse_transform(y_pred)
    pred = pd.DataFrame(zip(y_test_label, y_pred_label), columns = ['test', 'pred'])

    error = pred[pred['test'] != pred['pred']].copy()
    error['count'] = 1
    error = error.pivot_table(values = 'count', columns = 'test', index = 'pred', aggfunc = 'sum').copy()

    plt.figure(figsize = (7,3), dpi = 150)
    sns.heatmap(error, cmap = 'flare')
    plt.show()

### 피처 엔지니어링
특성 공학이라고도 불리는 피처 엔지니어링(Feature Engineering)은 말 그대로 성능을 개선하기 위해 특성을 조작하는 것입니다.<br>
방법은 정말 다양한데, 지난 시간에 학습한 PCA를 활용하여 **Feature Extraction**하는 방법도 있고,<br>
특성의 일부만 활용하여 **Feature Selection**하는 방법도 있습니다.<br>
<br>
히트맵을 보니 Right와 Left를 잘 구분하지 못하는 것 같습니다.<br>
그렇다면 자주 사용하는 발 정보를 넣어주면 성능이 오르지 않을까요?<br>
간단하게 `Preferred Foot` 정보를 데이터셋에 추가해보도록 하겠습니다.

In [None]:
# Preferred Foot 값 확인


In [None]:
# 선호하는 발 특성 추가


In [None]:
# 선호하는 발 정수 인덱싱


In [None]:
# 새로운 결과 확인
import time

pipeline = Pipeline([('scaler', StandardScaler()),
                     ('lr', LogisticRegression(solver = 'lbfgs', max_iter = 1000))
                     ])

start = time.time()
pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)

print(f"{time.time()-start:.4f} 초 소요")
acc = accuracy_score(y_test, y_pred)
print('Logistic Regression 모델의 정확도:', '%.4f'%acc)

### 하이퍼 파라미터 튜닝
앞서 `k-NN`의 k나 `DecisionTree`의 max_depth와 같은 값은 모델의 결과에 큰 영향을 미칠 수 있는 중요한 하이퍼 파라미터입니다.<br>
최적의 하이퍼 파라미터를 찾기 위한 방법론들이 있지만, 가장 좋은 방법은 직접 다 넣어보는 것입니다!<br>
쉽게 하이퍼 파라미터에 따른 결과를 비교해볼 수 있도록 사이킷런에서는 `GridSearch`를 제공하고 있습니다.

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 319)

In [None]:
from sklearn.model_selection import StratifiedKFold
from sklearn.model_selection import GridSearchCV

# 모델 파이프라인 설정
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('lr', LogisticRegression(max_iter = 1000))
                     ])

In [None]:
# 하이퍼 파라미터 설정
solvers = ['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga']
c_values = [100, 10, 1.0, 0.1, 0.01]

In [None]:
# GridSearch 적용
grid = dict(lr__solver = solvers, lr__C = c_values)

In [None]:
# CrossValidation 설정
cv = StratifiedKFold(n_splits=3, random_state = 319, shuffle = True)

In [None]:
# GridSearchCV 학습
grid_search = GridSearchCV(estimator=pipeline, param_grid=grid, n_jobs=-1, cv=cv, scoring='accuracy', error_score=0)
grid_result = grid_search.fit(x_train, y_train)

In [None]:
# 결과 요약
print("Best: %f using %s" % (grid_result.best_score_, grid_result.best_params_))
means = grid_result.cv_results_['mean_test_score']
stds = grid_result.cv_results_['std_test_score']
params = grid_result.cv_results_['params']

for mean, stdev, param in zip(means, stds, params):
    print("%f (%f) with: %r" % (mean, stdev, param))

In [None]:
grid_result.cv_results_

In [None]:
# 최적의 하이퍼 파라미터 설정 후 학습
start = time.time()
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('lr', LogisticRegression(solver = 'newton-cg', C = 1))
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)

print(f"{time.time()-start:.4f} 초 소요")
acc = accuracy_score(y_test, y_pred)
print('Logistic Regression 모델의 정확도:', '%.4f'%acc)

In [None]:
error_heatmap(y_test, y_pred)

In [None]:
rb_df = df[df['Best Position'] == 'RB'].iloc[:,27:61].copy()

In [None]:
rwb_df = df[df['Best Position'] == 'RWB'].iloc[:,27:61].copy()

In [None]:
rb_df.describe() - rwb_df.describe()

### 피처 엔지니어링 - 특성 추가

In [None]:
x = pd.concat([x,df[['Overall', 'Potential']]], axis = 1)

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 319)

In [None]:
start = time.time()
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('lr', LogisticRegression(solver = 'newton-cg', C = 1))
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)

print(f"{time.time()-start:.4f} 초 소요")
acc = accuracy_score(y_test, y_pred)
print('Logistic Regression 모델의 정확도:', '%.4f'%acc)

In [None]:
error_heatmap(y_test, y_pred)

## 선수 가치 예측

In [None]:
df['Release Clause'] = df['Release Clause'].fillna('0'); df['Release Clause']

In [None]:
df['Release Clause'] = df['Release Clause'].map(lambda x : re.sub('[€]','',x))
df['Release Clause'] = df['Release Clause'].map(lambda x : float(re.sub('[^\.\d]','',x)) * 1000 if 'M' in x
                                                else float(re.sub('[^\.\d]','',x)))

In [None]:
plt.figure(dpi = 100)
sns.scatterplot(x = 'Overall', y = 'Release Clause', data = df, alpha = 0.5)
plt.show()

In [None]:
plt.figure(dpi = 100)
sns.scatterplot(x = 'Age', y = 'Release Clause', data = df, alpha = 0.5)
plt.show()

In [None]:
import numpy as np
df['Release Clause'] = df['Release Clause'].replace(0, np.nan)

In [None]:
reg_df = df.dropna(subset = ['Release Clause']).copy()

In [None]:
x = reg_df.iloc[:,27:61]
x = pd.concat([reg_df[['Age','Overall','Potential']], x], axis = 1)

In [None]:
x.drop('Marking', axis = 1, inplace = True); x

In [None]:
y = df.dropna(subset = ['Release Clause'])['Release Clause'].copy(); y

In [None]:
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.3, random_state = 319)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

lin = LinearRegression()
lin.fit(x_train, y_train)
y_pred = lin.predict(x_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print('MSE:', np.round(mse, 4), 'RMSE:', np.round(rmse, 4))
print('R2:', np.round(r2, 4))

In [None]:
from sklearn.svm import SVR
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('svr', SVR())
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print('MSE:', np.round(mse, 4), 'RMSE:', np.round(rmse, 4))
print('R2:', np.round(r2, 4))

In [None]:
from sklearn.neighbors import KNeighborsRegressor
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('knnrg', KNeighborsRegressor())
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print('MSE:', np.round(mse, 4), 'RMSE:', np.round(rmse, 4))
print('R2:', np.round(r2, 4))

In [None]:
from sklearn.tree import DecisionTreeRegressor
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('dtrg', DecisionTreeRegressor())
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print('MSE:', np.round(mse, 4), 'RMSE:', np.round(rmse, 4))
print('R2:', np.round(r2, 4))

In [None]:
from sklearn.ensemble import RandomForestRegressor
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('rfrg', RandomForestRegressor())
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print('MSE:', np.round(mse, 4), 'RMSE:', np.round(rmse, 4))
print('R2:', np.round(r2, 4))

In [None]:
from xgboost import XGBRegressor
pipeline = Pipeline([('scaler', StandardScaler()),
                     ('xgbr', XGBRegressor(n_estimators=100, learning_rate=0.08, gamma=0,objective='reg:squarederror',
                                           subsample=0.75, colsample_bytree=1, max_depth=15, random_state = 319))
                     ])

pipeline.fit(x_train, y_train)
y_pred = pipeline.predict(x_test)
mse = mean_squared_error(y_test, y_pred)
rmse = np.sqrt(mse)
r2 = r2_score(y_test, y_pred)

print('MSE:', np.round(mse, 4), 'RMSE:', np.round(rmse, 4))
print('R2:', np.round(r2, 4))