用いたデータ：統計科学研究所 成績csv\
https://statistics.co.jp/reference/statistical_data/statistical_data.htm

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.model_selection import train_test_split
seiseki = pd.read_csv("seiseki.csv")

### k-meansでクラスタリング
分類問題を扱いため、k-meansでクラスタリングする。

In [3]:
### クラスター数 n_cluster = 2で kmeans定義する
kmeans = KMeans(n_clusters=2,random_state=0)

### k-meansを適応する
kmeans.fit(seiseki)

### 実際にk-means実行
cluster = kmeans.predict(seiseki)

### クラスター番号を元のデータに追加する
seiseki_cluster = seiseki.copy()
seiseki_cluster["cluster"] = cluster

### データの分割 
テストデータ；学習データ = 3：7

In [4]:
x = seiseki
t = seiseki_cluster["cluster"]
x_train,x_test,t_train,t_test = train_test_split(x,t,
                                                 test_size=0.3,
                                                 random_state=0)

### SVM(サポートベクトルマシン)を実装

In [13]:
### 必要なモジュールをインポートする
from sklearn.svm import SVC

### サポートベクトルを定義
model = SVC()

### サポートベクトルを適応する
model.fit(x_train,t_train)

### サポートベクトルで予測する
t_pred = model.predict(x_test)

### 精度評価
1, 正解率\
2, 混合行列(confusion matrix)\
3, 適合率(precision)\
4, 再現率(recall)

In [15]:
### 必要なライブラリ,メソッドをインポートする
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

### 1,正解率
print('accuracy = ',
      accuracy_score(t_test, t_pred))
### 2,混合行列
print('confusion matrix = \n',
      confusion_matrix(t_test,t_pred))

### 3,適合率
print('precision = ',
      precision_score(t_test, t_pred))

### 4,再現率
print('recall = ', recall_score(t_test, t_pred))

accuracy =  0.96
confusion matrix = 
 [[20  1]
 [ 1 28]]
precision =  0.9655172413793104
recall =  0.9655172413793104


### 標準化後のデータでSVMを実装する。
SVMは、距離の概念を用いて分類を行う。\
よって、各カラム(軸)の値の規模・スケールが同じでないと本来はいけない。\
→ 標準化が必須

### 標準化する

In [31]:
### 必要なライブラリ,メソッドをインポートする
from sklearn.preprocessing import StandardScaler
sc = StandardScaler()
x_std = sc.fit_transform(x)

In [32]:
x_train_std,x_test_std,t_train,t_test = train_test_split(x_std,t,
                                                 test_size=0.3,
                                                 random_state=0)

In [33]:
model_std = SVC()
model_std.fit(x_train_std,t_train)
t_pred_std = model.predict(x_test_std)

In [34]:
### 必要なライブラリ,メソッドをインポートする
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

### 1,正解率
print('accuracy = ',
      accuracy_score(t_test, t_pred_std))
### 2,混合行列
print('confusion matrix = \n',
      confusion_matrix(t_test,t_pred_std))

### 3,適合率
print('precision = ',
      precision_score(t_test, t_pred_std))

### 4,再現率
print('recall = ', recall_score(t_test, t_pred_std))

accuracy =  0.58
confusion matrix = 
 [[ 0 21]
 [ 0 29]]
precision =  0.58
recall =  1.0
