# FIFA 선수 이적료 예측 경진대회

### FIFA_train.csv / FIFA_test.csv
id : 선수 고유의 아이디\
name : 이름\
age : 나이\
continent : 선수들의 국적이 포함되어 있는 대륙입니다\
contract_until : 선수의 계약기간이 언제까지인지 나타내어 줍니다\
position : 선수가 선호하는 포지션입니다. ex) 공격수, 수비수 등\
prefer_foot : 선수가 선호하는 발입니다. ex) 오른발\
reputation : 선수가 유명한 정도입니다. ex) 높은 수치일 수록 유명한 선수\
stat_overall : 선수의 현재 능력치 입니다.\
stat_potential : 선수가 경험 및 노력을 통해 발전할 수 있는 정도입니다.\
stat_skill_moves : 선수의 개인기 능력치 입니다.\
value : FIFA가 선정한 선수의 이적 시장 가격 (단위 : 유로) 입니다\


### submission.csv (제출 파일 형식)
id : 선수 고유의 아이디\
value : 예측된 선수 이적 시장 가격을 기입


In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeRegressor
from sklearn.metrics import r2_score

## 1.데이터 로드 및 정보 확인

1. 데이터 로드

In [2]:
train = pd.read_csv("./FIFA_train.csv")
test = pd.read_csv("./FIFA_test.csv")
submission = pd.read_csv("./submission.csv")

2. 데이터 정보 확인

In [3]:
train.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8932 entries, 0 to 8931
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id                8932 non-null   int64  
 1   name              8932 non-null   object 
 2   age               8932 non-null   int64  
 3   continent         8932 non-null   object 
 4   contract_until    8932 non-null   object 
 5   position          8932 non-null   object 
 6   prefer_foot       8932 non-null   object 
 7   reputation        8932 non-null   float64
 8   stat_overall      8932 non-null   int64  
 9   stat_potential    8932 non-null   int64  
 10  stat_skill_moves  8932 non-null   float64
 11  value             8932 non-null   float64
dtypes: float64(3), int64(4), object(5)
memory usage: 837.5+ KB


In [4]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3828 entries, 0 to 3827
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   id                3828 non-null   int64  
 1   name              3828 non-null   object 
 2   age               3828 non-null   int64  
 3   continent         3828 non-null   object 
 4   contract_until    3828 non-null   object 
 5   position          3828 non-null   object 
 6   prefer_foot       3828 non-null   object 
 7   reputation        3828 non-null   float64
 8   stat_overall      3828 non-null   int64  
 9   stat_potential    3828 non-null   int64  
 10  stat_skill_moves  3828 non-null   float64
dtypes: float64(2), int64(4), object(5)
memory usage: 329.1+ KB


3. null 값 확인

In [5]:
train.isnull().sum()

id                  0
name                0
age                 0
continent           0
contract_until      0
position            0
prefer_foot         0
reputation          0
stat_overall        0
stat_potential      0
stat_skill_moves    0
value               0
dtype: int64

## 2.데이터 전처리

1. 필요없는 데이터 삭제

In [6]:
train.drop(['id', 'name'], axis=1, inplace=True)
test.drop(['id', 'name'], axis=1, inplace=True)

2. contract_utill에서 연도만 추출
* apply 메서드는 DataFrame에 함수를 적용하여 반환합니다.

In [7]:
train.contract_until.value_counts()

2019            2366
2021            2308
2020            2041
2022             761
2023             506
Jun 30, 2019     501
2018             327
Dec 31, 2018      64
May 31, 2019      19
2024              12
Jan 31, 2019      10
Jun 30, 2020       9
2025               3
Jan 1, 2019        2
2026               1
May 31, 2020       1
Jan 12, 2019       1
Name: contract_until, dtype: int64

In [8]:
def func(string:object):
    string = string[-4:] # 뒤에서 네번째 까지(연도))
    return int(string)

train['contract_until'] = train['contract_until'].apply(func)
test['contract_until'] = test['contract_until'].apply(func)

3. categorical, numero
* string type의 데이터들을 숫자형을 cat.codes를 이용하여 int타입으로 변환합니다.

In [9]:
train.continent

0       south america
1              europe
2       south america
3              europe
4              europe
            ...      
8927           africa
8928           europe
8929    south america
8930           europe
8931           europe
Name: continent, Length: 8932, dtype: object

In [10]:
# train['continent'] = train['continent'].astype('category').cat.codes
# train['position'] = train['position'].astype('category').cat.codes
# train['prefer_foot'] = train['prefer_foot'].astype('category').cat.codes

# test['contient'] = test['continent'].astype('category').cat.codes
# test['position'] = test['position'].astype('category').cat.codes
# test['prefer_foot'] = test['prefer_foot'].astype('category').cat.codes

많이 사용되는 방법이지만 단점으로 어떤 클래스가 숫자로 정의되어 있는지 확인하기가 어렵습니다.

sklearn의 label encoder를 사용하여 변환하면 쉽고 cat.codes의 단점도 해결할 수 있습니다.

다만 LabelEncoder는 파이썬의 클래스 객체입니다. 
클래스 객체가 어떤 속성 데이터를 출력해줄 수 있는 것은 내부에 해당 속성을 저장하기 때문인데, 
세 칼럼을 동일한 인코더 객체로 인코딩 해주면서 앞서 저장된 데이터를 덮어 씌웠기 때문에 마지막 데이터만 보여주게 됩니다.

In [11]:
label_e = LabelEncoder()

In [12]:
train['continent'] = label_e.fit_transform(train['continent'])
label_e.classes_

array(['africa', 'asia', 'europe', 'oceania', 'south america'],
      dtype=object)

In [13]:
train['position'] = label_e.fit_transform(train['position'])
label_e.classes_

array(['DF', 'GK', 'MF', 'ST'], dtype=object)

In [14]:
train['prefer_foot'] = label_e.fit_transform(train['prefer_foot'])
label_e.classes_

array(['left', 'right'], dtype=object)

In [15]:
print(train['continent'])

0       4
1       2
2       4
3       2
4       2
       ..
8927    0
8928    2
8929    4
8930    2
8931    2
Name: continent, Length: 8932, dtype: int64


In [16]:
test['continent'] = label_e.fit_transform(test['continent'])
test['position'] = label_e.fit_transform(test['position'])
test['prefer_foot'] = label_e.fit_transform(test['prefer_foot'])

## 3.Scailing

In [17]:
sdscaler = StandardScaler()
sdscaled_train = pd.DataFrame(sdscaler.fit_transform(train), columns = train.columns)
sdscaled_test = pd.DataFrame(sdscaler.fit_transform(test), columns = test.columns)

In [18]:
sdscaled_train

Unnamed: 0,age,continent,contract_until,position,prefer_foot,reputation,stat_overall,stat_potential,stat_skill_moves,value
0,1.249309,1.606719,0.635952,1.381105,-1.806512,9.130280,3.925708,3.674598,2.059652,18.443366
1,0.386357,-0.180036,-0.153420,-0.404526,0.553553,6.770499,3.488041,3.507592,-1.806307,11.851639
2,1.249309,1.606719,0.635952,1.381105,0.553553,9.130280,3.488041,3.173580,0.770999,13.221348
3,1.465046,-0.180036,-0.153420,-1.297341,0.553553,6.770499,3.488041,3.173580,0.770999,8.256151
4,-0.045118,-0.180036,0.635952,-0.404526,0.553553,4.410719,3.342152,3.507592,-1.806307,11.166784
...,...,...,...,...,...,...,...,...,...,...
8927,-1.555283,-1.966790,-0.942792,0.488290,0.553553,-0.308843,-2.785186,-1.502586,0.770999,-0.465474
8928,-1.339545,-0.180036,-0.153420,-1.297341,0.553553,-0.308843,-2.931075,-2.170610,-0.517654,-0.468898
8929,-1.555283,1.606719,0.635952,-1.297341,0.553553,-0.308843,-2.931075,-1.335580,-0.517654,-0.467186
8930,-1.555283,-0.180036,0.635952,-0.404526,0.553553,-0.308843,-2.931075,-1.168574,-1.806307,-0.467186


In [19]:
X_train, X_test, y_train, y_test = train_test_split(train, train['value'],test_size=0.2,random_state=2022)

## 4.Modeling

In [20]:
dt_regr = DecisionTreeRegressor(max_depth=4)

In [33]:
dt_regr.fit(X_train['stat_overall'].values.reshape(-1,1), y_train)

In [34]:
y_pred = dt_regr.predict(X_test['stat_overall'].values.reshape(-1,1))

In [35]:
print('단순 결정 트리 회귀 R2 : {:.4f}'.format(r2_score(y_test, y_pred))) # depth = 5 

단순 결정 트리 회귀 R2 : 0.9084


In [43]:
arr = np.arange(1,10)

In [44]:
best_depth = 0
best_r2 = 0

for depth in arr:
  dt_regr = DecisionTreeRegressor(max_depth=depth)
  dt_regr.fit(X_train['stat_overall'].values.reshape(-1,1), y_train)
  y_pred = dt_regr.predict(X_test['stat_overall'].values.reshape(-1,1))
  
  temp_r2 = r2_score(y_test, y_pred)
  print('\n단순 결정 트리 회귀 depth ={} R2 : {:.4f}'.format(depth, temp_r2))

  if best_r2 < temp_r2:
    best_depth = depth
    best_r2 = temp_r2

print('최적의 결과는 depth={} r2={:.4f}'.format(best_depth, best_r2))


단순 결정 트리 회귀 depth =1 R2 : 0.5831

단순 결정 트리 회귀 depth =2 R2 : 0.8235

단순 결정 트리 회귀 depth =3 R2 : 0.8806

단순 결정 트리 회귀 depth =4 R2 : 0.8995

단순 결정 트리 회귀 depth =5 R2 : 0.9078

단순 결정 트리 회귀 depth =6 R2 : 0.9084

단순 결정 트리 회귀 depth =7 R2 : 0.9084

단순 결정 트리 회귀 depth =8 R2 : 0.9084

단순 결정 트리 회귀 depth =9 R2 : 0.9084
최적의 결과는 depth=9 r2=0.9084


In [45]:
dt_regr = DecisionTreeRegressor(max_depth=5)

In [46]:
dt_regr.fit(X_train, y_train)

In [47]:
y_pred = dt_regr.predict(X_test)

In [48]:
print('다중 결정 트리 회귀 R2 : {:.4f}'.format(r2_score(y_test, y_pred)))

다중 결정 트리 회귀 R2 : 0.9964


In [49]:
best_depth = 0
best_r2 = 0

for depth in arr:
  dt_regr = DecisionTreeRegressor(max_depth=depth)
  dt_regr.fit(X_train, y_train)
  y_pred = dt_regr.predict(X_test)
  
  temp_r2 = r2_score(y_test, y_pred)
  print('\n다중 결정 트리 회귀 depth ={} R2 : {:.4f}'.format(depth, temp_r2))

  if best_r2 < temp_r2:
    best_depth = depth
    best_r2 = temp_r2

print('최적의 결과는 depth={} r2={:.4f}'.format(best_depth, best_r2))


다중 결정 트리 회귀 depth =1 R2 : 0.6117

다중 결정 트리 회귀 depth =2 R2 : 0.8929

다중 결정 트리 회귀 depth =3 R2 : 0.9718

다중 결정 트리 회귀 depth =4 R2 : 0.9773

다중 결정 트리 회귀 depth =5 R2 : 0.9964

다중 결정 트리 회귀 depth =6 R2 : 0.9854

다중 결정 트리 회귀 depth =7 R2 : 0.9985

다중 결정 트리 회귀 depth =8 R2 : 0.9985

다중 결정 트리 회귀 depth =9 R2 : 0.9979
최적의 결과는 depth=8 r2=0.9985
