# 문제 정의

- 농구 선수의 경기 기록을 바탕으로, 그 선수의 포지션을 예측해보도록 하겠습니다.

In [1]:
import pandas as pd
import numpy as np

# 데이터 수집

In [2]:
# 수집된 데이터를 읽어오기
df = pd.read_csv('data/csv/basketball_stat.csv')

In [3]:
# 수집된 데이터 샘플을 확인.
df.head()

Unnamed: 0,Player,Pos,3P,2P,TRB,AST,STL,BLK
0,Alex Abrines,SG,1.4,0.6,1.3,0.6,0.5,0.1
1,Steven Adams,C,0.0,4.7,7.7,1.1,1.1,1.0
2,Alexis Ajinca,C,0.0,2.3,4.5,0.3,0.5,0.6
3,Chris Andersen,C,0.0,0.8,2.6,0.4,0.4,0.6
4,Will Barton,SG,1.5,3.5,4.3,3.4,0.8,0.5


In [None]:
# 현재 가지고 있는 데이터에서, Pos의 갯수를 확인한다.
df.Pos.value_counts()

# 데이터 시각화

데이터 특징을 바탕으로 한 공간에 시각화함으로써, 우리는 머신러닝 학습에 필요한 특징과 불필요한 특징을 쉽게 구분 지을 수 있다.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

# 'STL', '2P' 데이터 시각화
sns.lmplot('STL', '2P', data=df, fit_reg=False, # x축, y축, 데이터, 라인없음
            scatter_kws={"s":150}, # 좌표 상의 점의 크기
            markers=["o", "x"],
            hue="Pos") # 예측값

#title
plt.title('STL and 2P in 2d plane')


In [None]:
# 어시스트, '2P' 데이터 시각화
sns.lmplot('AST', '2P', data=df, fit_reg=False, # x축, y축, 데이터, 라인없음
            scatter_kws={"s":150}, # 좌표 상의 점의 크기
            markers=["o", "x"],
            hue="Pos") # 예측값

#title
plt.title('AST and 2P in 2d plane')

In [None]:
# 블로킹, '3P' 데이터 시각화
sns.lmplot('BLK', '3P', data=df, fit_reg=False, # x축, y축, 데이터, 라인없음
            scatter_kws={"s":150}, # 좌표 상의 점의 크기
            markers=["o", "x"],
            hue="Pos") # 예측값

#title
plt.title('BLK and 3P in 2d plane')

In [None]:
# 리바운드, '3P' 데이터 시각화
sns.lmplot('TRB', '3P', data=df, fit_reg=False, # x축, y축, 데이터, 라인없음
            scatter_kws={"s":150}, # 좌표 상의 점의 크기
            markers=["o", "x"],
            hue="Pos") # 예측값

#title
plt.title('TRB and 3P in 2d plane')

# 데이터 다듬기

In [None]:
# 분별력이 없는 특징(feature)을 데이터에서 제거한다.
df.drop(['2P', 'AST', 'STL'], axis=1, inplace=True)
df.head()

# 데이터 나누기(학습 데이터, 테스트 데이터)

In [None]:
# sklearn의 train_test_split을 사용하면 코드 한 줄로 손쉽게 데이터를 나눌 수 있다.
# conda install scikit-learn : 설치 
from sklearn.model_selection import train_test_split

# sklearn의 train_test_split 의 동일한 결과 출력을 위해 선언합니다.
np.random.seed(1234)

train, test = train_test_split(df, test_size=0.2)

In [None]:
# 학습 데이터의 갯수를 확인.
train.shape[0]

In [None]:
# 테스트 데이터의 갯수를 확인.
test.shape[0]

In [None]:
train.to_csv("data/csv/basketball_train.csv", index = None)

In [None]:
test.to_csv("data/csv/basketball_test.csv", index = None)