In [45]:
# データ加工・処理・分析モジュール
import numpy as np
import numpy.random as random
import scipy as sp
import pandas as pd
from pandas import Series, DataFrame

In [46]:
# 学習用データとテストデータに分けるためのモジュール（正解率を出すため）
from sklearn.model_selection import train_test_split

In [47]:
#データの読み込み
train_df = pd.read_csv('train_data.csv')

In [48]:
#欠損値を含む行の削除
train_df=train_df.dropna(how='any')

In [49]:
print(train_df)

    rank              Player  Annual income(100 million yen)   Age     GP  \
0      1       Stephen Curry                            43.4  31.0  112.0   
1      2  Russell Westbrook                             41.5  32.0  104.0   
2      3          Chris Paul                            41.5  35.0  108.0   
3      4        James Harden                            41.2  31.0  126.0   
4      5           John Wall                            41.2  29.0   37.0   
5      6        LeBron James                            40.4  35.0  260.0   
6      7        Kevin Durant                            40.1  32.0  139.0   
7      8       Blake Griffin                            37.2  31.0   53.0   
8      9          Kyle Lowry                            35.9  33.0   86.0   
9     10         Paul George                            35.6  30.0   88.0   
10    11       Klay Thompson                            35.3  29.0  123.0   
11    12        Kemba Walker                            35.3  30.0   25.0   

In [50]:
# 説明変数X(特徴量)と目的変数Y(ポジション)に分ける
X = train_df.drop(['rank','Player','Position'], axis=1)
Y = train_df['Position']

#ここから学習用データとテスト用データに分ける。random_stateは乱数を固定
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

In [51]:
# k-近傍法（k-NN）
from sklearn.neighbors import KNeighborsClassifier

#k-NNインスタンス
model = KNeighborsClassifier(n_neighbors=2)
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.8888888888888888
test score: 0.5555555555555556


In [52]:
# 構築したモデルからポジションを判定
model.predict(X)

array(['PG', 'PG', 'PG', 'SF', 'PG', 'SF', 'SF', 'PF', 'PG', 'SF', 'SF',
       'PG', 'SF', 'SF', 'PF', 'PF', 'PG', 'PG', 'SF', 'PF', 'PG', 'PF',
       'PF', 'C', 'SG', 'SG', 'C', 'C', 'C', 'C', 'PF', 'C', 'C', 'SG',
       'SG', 'PF'], dtype=object)

In [53]:
# 決定木
from sklearn.tree import DecisionTreeClassifier

# 決定木インスタンス(木の深さ3)
model = DecisionTreeClassifier(max_depth=3)
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.9629629629629629
test score: 0.6666666666666666


In [54]:
# 構築したモデルからポジションを判定
model.predict(X)

array(['PG', 'PG', 'PG', 'SG', 'PG', 'PF', 'SF', 'PF', 'PG', 'SF', 'SG',
       'SG', 'SF', 'SG', 'PF', 'SG', 'SG', 'PG', 'SF', 'PF', 'PG', 'PF',
       'PF', 'C', 'SG', 'SG', 'C', 'SF', 'C', 'C', 'PG', 'PF', 'C', 'SG',
       'SG', 'PF'], dtype=object)

In [55]:
# サポートベクターマシン（SVM）
from sklearn.svm import LinearSVC

# SVMインスタンス
model = LinearSVC()
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.8148148148148148
test score: 0.4444444444444444


In [56]:
# 構築したモデルからポジションを判定
model.predict(X)

array(['PG', 'PG', 'PG', 'SG', 'PG', 'SF', 'SF', 'PF', 'PG', 'SG', 'SG',
       'PG', 'SF', 'SG', 'SG', 'SG', 'PG', 'SG', 'SG', 'PF', 'SG', 'PF',
       'SF', 'C', 'SG', 'SG', 'C', 'SF', 'C', 'C', 'SG', 'SG', 'C', 'SG',
       'SG', 'SG'], dtype=object)

In [57]:
# ロジスティック回帰
from sklearn.linear_model import LogisticRegression

# ロジスティック回帰インスタンス
model = LogisticRegression()
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 1.0
test score: 0.4444444444444444


In [58]:
# 構築したモデルからポジションを判定
model.predict(X)

array(['PG', 'PG', 'PG', 'SG', 'PG', 'SF', 'SF', 'PF', 'PG', 'SF', 'SF',
       'PG', 'SF', 'SG', 'PF', 'SG', 'PG', 'PG', 'SF', 'PF', 'PG', 'PF',
       'SF', 'C', 'SG', 'SG', 'C', 'SF', 'C', 'C', 'SG', 'SF', 'C', 'SG',
       'SG', 'PF'], dtype=object)

In [59]:
#このままだと精度が悪いので、仮説によって特徴量を選ぶ

In [60]:
# 説明変数X(特徴量)と目的変数Y(ポジション)に分ける
X = train_df[['3P%','TRB','AST','BLK','TOV','Height(cm)','Weight(kg)']]
Y = train_df['Position']

#ここから学習用データとテスト用データに分ける。random_stateは乱数を固定
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

In [61]:
print(Y)

0     PG
1     PG
2     PG
3     SG
4     PG
5     SF
6     SF
7     PF
8     PG
9     SF
10    SG
11    PG
12    SF
13    SG
14    PF
15    SF
16    PG
17    PG
18    SF
19    PF
20    PG
21    PF
22    PF
23     C
24    SG
25    SG
26     C
27    SF
28     C
30     C
32    PG
34    PF
35     C
36    SG
38    SG
39    PF
Name: Position, dtype: object


In [62]:
# k-近傍法（k-NN）
from sklearn.neighbors import KNeighborsClassifier

#k-NNインスタンス
model = KNeighborsClassifier(n_neighbors=2)
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.7777777777777778
test score: 0.8888888888888888


In [63]:
# 説明変数X(特徴量)と目的変数Y(ポジション)に分ける
X = train_df[['3P%','TRB','AST','BLK','TOV','Height(cm)','Weight(kg)']]
Y = train_df['Position']
X=X.reset_index(drop=True)
Y=Y.reset_index(drop=True)
#traindataを予測
# 構築したモデルからポジションを判定
pred_Y_train=pd.Series(model.predict(X))
pred_Y_train=pd.DataFrame(pred_Y_train)
Y_train=pd.DataFrame(Y)
pred_Y_train.columns=["Prediction"]
Y_train.columns=["Label"]
result=pred_Y_train.join(Y_train)
print(result)

   Prediction Label
0          PG    PG
1          PG    PG
2          PG    PG
3          SG    SG
4          PG    PG
5          PF    SF
6          PF    SF
7           C    PF
8          PG    PG
9          SF    SF
10         SF    SG
11         PG    PG
12         SF    SF
13         SF    SG
14         PF    PF
15         SF    SF
16         PG    PG
17         PG    PG
18         SF    SF
19         PF    PF
20         PG    PG
21         PF    PF
22         PF    PF
23          C     C
24         SG    SG
25         PG    SG
26          C     C
27         SF    SF
28          C     C
29          C     C
30         PG    PG
31         PF    PF
32          C     C
33         SG    SG
34         SG    SG
35          C    PF


In [64]:
#データの読み込み
test_df = pd.read_csv('test_data.csv')
# 説明変数X(特徴量)と目的変数Y(ポジション)に分ける
x = test_df[['3P%','TRB','AST','BLK','TOV','Height(cm)','Weight(kg)']]
y = test_df['Position']
#欠損値を含む行の削除
x=x.dropna()
y=y.dropna()
#testdataを予測
# 構築したモデルからポジションを判定
pred_y=pd.Series(model.predict(x))
pred_y=pd.DataFrame(pred_y)
y=pd.DataFrame(y)
pred_y.columns=["Prediction"]
y.columns=["Label"]
result=pred_y.join(y)
print(result)

   Prediction Label
0          SF    SF
1          PG    PG
2          SG    SG
3          SF    SF
4          SF    SG
5           C     C
6          SF    SF
7          SF    SF
8          SF    SG
9          SG    PG
10          C     C
11         PG    SG
12         PG    SG
13         PG    PG
14          C    PF
15         PG    SG
16         SF    SF


In [65]:
# 決定木
from sklearn.tree import DecisionTreeClassifier

# 決定木インスタンス(木の深さ3)
model = DecisionTreeClassifier(max_depth=3)
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.9629629629629629
test score: 0.6666666666666666


In [66]:
# サポートベクターマシン（SVM）
from sklearn.svm import LinearSVC

# SVMインスタンス
model = LinearSVC()
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.5185185185185185
test score: 0.6666666666666666


In [67]:
# ロジスティック回帰
from sklearn.linear_model import LogisticRegression

# ロジスティック回帰インスタンス
model = LogisticRegression()
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.8518518518518519
test score: 0.5555555555555556


In [68]:
#交差検証法

In [69]:
# k-近傍法（k-NN）
from sklearn.neighbors import KNeighborsClassifier

#k-NNインスタンス
model = KNeighborsClassifier(n_neighbors=2)

In [70]:
from sklearn.model_selection import cross_val_score
# 交差検証
scores = cross_val_score(model,X,Y)
# 各分割におけるスコア
print('Cross-Validation scores: {}'.format(scores))
# スコアの平均値
import numpy as np
print('Average score: {}'.format(np.mean(scores)))

Cross-Validation scores: [0.375      0.57142857 0.85714286 0.71428571 0.71428571]
Average score: 0.6464285714285715


In [71]:
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)
#testdataを予測
# 構築したモデルからポジションを判定
pred_y=pd.Series(model.predict(x))
pred_y=pd.DataFrame(pred_y)
y=pd.DataFrame(y)
pred_y.columns=["Prediction"]
y.columns=["Label"]
result=pred_y.join(y)
print(result)

   Prediction Label
0          SF    SF
1          PG    PG
2          SG    SG
3          SF    SF
4          SF    SG
5           C     C
6          SF    SF
7          SF    SF
8          SF    SG
9          SG    PG
10          C     C
11         PG    SG
12         PG    SG
13         PG    PG
14          C    PF
15         PG    SG
16         SF    SF


In [72]:
from sklearn.model_selection import KFold
# 単純な方法
for k in range(2,20):
    kfold = KFold(n_splits=k)
    scores_kfold=cross_val_score(model,X,Y,cv=kfold)
    mean=np.mean(scores_kfold)
    if k==2:
        scores_list=scores_kfold
        mean_max=mean
        optical_k=k
    elif mean>mean_max:
        scores_list=scores_kfold
        mean_max=mean
        optical_k=k
print("k=",optical_k)
print('Cross-validation scores: \n{}'.format(scores_list))
# スコアの平均値
print('Average score: \n{}'.format(mean_max))

k= 8
Cross-validation scores: 
[0.8  0.4  0.4  1.   1.   0.75 1.   0.25]
Average score: 
0.7


In [73]:
from sklearn.model_selection import StratifiedKFold
# 層化 k 分割交差検証
for k in range(2,11):
    stratifiedkfold = StratifiedKFold(n_splits=k)
    scores_stratifiedkfold = cross_val_score(model,X,Y,cv=stratifiedkfold)
    mean=np.mean(scores_stratifiedkfold)
    if k==2:
        scores_list=scores_stratifiedkfold
        mean_max=mean
        optical_k=k
    elif mean>mean_max:
        scores_list=scores_stratifiedkfold
        mean_max=mean
        optical_k=k
print("k=",optical_k)
print('Cross-validation scores: \n{}'.format(scores_list))
# スコアの平均値
print('Average score: \n{}'.format(mean_max))

k= 9
Cross-validation scores: 
[0.5  0.25 0.75 0.75 1.   0.75 0.75 0.75 0.75]
Average score: 
0.6944444444444444


In [74]:
#主成分分析↓

In [75]:
#トレーニングデータを利用してデータの平均と標準偏差を求める
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
sc.fit(X_train)

StandardScaler()

In [76]:
#標準偏差と平均値を使用して、トレーニングデータとテストデータを、それぞれ標準化する
X_train_std = sc.transform(X_train)
X_test_std = sc.transform(X_test)

In [77]:
#主成分分析により、トレーニングデータから上位２つの主成分を抽出し、主成分分析の結果をトレーニングデータとテストデータに反映させる
from sklearn.decomposition import PCA
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

In [78]:
print(X_train_pca)

[[ 14.77711422  -0.62414632]
 [ -9.86080386   1.86373647]
 [ 12.43910204  -5.45533437]
 [-14.57149721   0.54790505]
 [ 25.6292334   -6.53374526]
 [ 30.6873664   22.79549499]
 [-21.95390949   5.15564714]
 [ -4.34191015  -1.86566487]
 [  9.54139678  -5.28895249]
 [-21.79375118  -0.59301449]
 [ -0.39755112  -2.97378169]
 [ 20.17820297  22.70117851]
 [ 21.80473657 -18.36872335]
 [-14.61560717   7.36351951]
 [ -2.52949676  -7.88083364]
 [-21.95700995  -0.13221438]
 [ -2.14415275   9.8292395 ]
 [  4.81614389  -5.41448099]
 [ 19.02752357   2.39734472]
 [-15.44616167  10.87786388]
 [ -5.04965377  -9.28777388]
 [ 12.14364953 -13.45922994]
 [ 12.49888733  -1.18339468]
 [ -3.4814794   -3.15744026]
 [-15.28838457  -1.81654778]
 [ -6.33073416   0.81081097]
 [-23.7812535   -0.30746236]]


In [87]:
# k-近傍法（k-NN）
from sklearn.neighbors import KNeighborsClassifier

#k-NNインスタンス
model = KNeighborsClassifier(n_neighbors=2)
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train_pca, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train_pca,y_train))
print("test score:",model.score(X_test_pca,y_test))

train score: 0.8148148148148148
test score: 0.8888888888888888


In [88]:
print(y_train)

30     C
27    SF
39    PF
36    SG
28     C
35     C
8     PG
13    SG
5     SF
17    PG
14    PF
7     PF
26     C
1     PG
12    SF
25    SG
24    SG
6     SF
23     C
4     PG
18    SF
21    PF
19    PF
9     SF
38    SG
3     SG
0     PG
Name: Position, dtype: object


In [None]:
X=X.reset_index(drop=True)
Y=Y.reset_index(drop=True)
#traindataを予測
# 構築したモデルからポジションを判定
pred_Y_train=pd.Series(model.predict(X))
pred_Y_train=pd.DataFrame(pred_Y_train)
Y_train=pd.DataFrame(Y)
pred_Y_train.columns=["Prediction"]
Y_train.columns=["Label"]
result=pred_Y_train.join(Y_train)
print(result)

In [82]:
#データの読み込み
test_df = pd.read_csv('test_data.csv')
# 説明変数X(特徴量)と目的変数Y(ポジション)に分ける
x = test_df[['3P%','TRB','AST','BLK','TOV','Height(cm)','Weight(kg)']]
y = test_df['Position']
#欠損値を含む行の削除
x=x.dropna()
y=y.dropna()

In [83]:
#主成分分析後に絞った結果

In [102]:
# 説明変数X(特徴量)と目的変数Y(ポジション)に分ける
X = train_df[['3P%','AST']]
Y = train_df['Position']

#ここから学習用データとテスト用データに分ける。random_stateは乱数を固定
X_train, X_test, y_train, y_test = train_test_split(X, Y, random_state=0)

In [103]:
# k-近傍法（k-NN）
from sklearn.neighbors import KNeighborsClassifier

#k-NNインスタンス
model = KNeighborsClassifier(n_neighbors=2)
#学習モデル構築。引数に訓練データの特徴量と、それに対応したラベル
model.fit(X_train, y_train)

# .scoreで正解率を算出。
print("train score:",model.score(X_train,y_train))
print("test score:",model.score(X_test,y_test))

train score: 0.6296296296296297
test score: 0.6666666666666666
