# Julia + ScikitLearn

## 動作確認

### ScikitLearnのirisデータセットを読み込む
- **sklearn.datasets.iris**
    - アヤメのデータセット
    - 特徴量:
        - sepal length: ガクの長さ (cm)
        - sepal width: ガクの幅 (cm)
        - petal length: 花びらの長さ (cm)
        - petal width: 花びらの幅 (cm)
    - 目的変数:
        - 品種: 0, 1, 2 の3種類に分類

In [6]:
# ScikitLearnパッケージを利用
using ScikitLearn

# from sklearn.datasets import load_iris
@sk_import datasets: load_iris

# irisデータセットをロード
data = load_iris()



Dict{Any,Any} with 6 entries:
  "feature_names" => ["sepal length (cm)", "sepal width (cm)", "petal length (c…
  "target_names"  => PyObject array(['setosa', 'versicolor', 'virginica'], dtyp…
  "data"          => [5.1 3.5 1.4 0.2; 4.9 3.0 1.4 0.2; … ; 6.2 3.4 5.4 2.3; 5.…
  "filename"      => "C:\\Users\\user\\.julia\\conda\\3\\lib\\site-packages\\sk…
  "target"        => Int32[0, 0, 0, 0, 0, 0, 0, 0, 0, 0  …  2, 2, 2, 2, 2, 2, 2…
  "DESCR"         => ".. _iris_dataset:\n\nIris plants dataset\n---------------…

In [27]:
# DataFramesパッケージを利用
using DataFrames: DataFrame, names!

# 特徴データをDataFrame化
X = DataFrame(data["data"])

# 列名を特徴量名に変更
## JuliaのDataFrameは、列名をSymbol型にしなければならない
names!(X, map(name -> Symbol(name), data["feature_names"]))

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
Unnamed: 0_level_1,Float64,Float64,Float64,Float64
1,5.1,3.5,1.4,0.2
2,4.9,3.0,1.4,0.2
3,4.7,3.2,1.3,0.2
4,4.6,3.1,1.5,0.2
5,5.0,3.6,1.4,0.2
6,5.4,3.9,1.7,0.4
7,4.6,3.4,1.4,0.3
8,5.0,3.4,1.5,0.2
9,4.4,2.9,1.4,0.2
10,4.9,3.1,1.5,0.1


In [28]:
# 目的変数をDataFrame化
y = DataFrame(Species=data["target"])

Unnamed: 0_level_0,Species
Unnamed: 0_level_1,Int32
1,0
2,0
3,0
4,0
5,0
6,0
7,0
8,0
9,0
10,0


In [30]:
# 特徴量データと目的変数データを結合し、一つのDataFrameにする
df = hcat(X, y)

Unnamed: 0_level_0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),Species
Unnamed: 0_level_1,Float64,Float64,Float64,Float64,Int32
1,5.1,3.5,1.4,0.2,0
2,4.9,3.0,1.4,0.2,0
3,4.7,3.2,1.3,0.2,0
4,4.6,3.1,1.5,0.2,0
5,5.0,3.6,1.4,0.2,0
6,5.4,3.9,1.7,0.4,0
7,4.6,3.4,1.4,0.3,0
8,5.0,3.4,1.5,0.2,0
9,4.4,2.9,1.4,0.2,0
10,4.9,3.1,1.5,0.1,0


## 教師あり学習

### 分類問題
- データ: アメリカウィスコンシン州の乳がんのデータ
    - データ数: 569個
        - 悪性（M）: 212個
        - 良性（B）: 357個
    - 特徴量: 30項目
        - 半径、テクスチャ、面積など10項目
        - 各項目ごとに、平均値、エラー値、最悪値の3つの値
    - 目的変数: 0（悪性）, 1（良性）の2値分類

In [32]:
# ScikitLearnの breast_cencer データセットを読み込む
@sk_import datasets: load_breast_cancer

data = load_breast_cancer()

Dict{Any,Any} with 6 entries:
  "feature_names" => PyObject array(['mean radius', 'mean texture', 'mean perim…
  "target_names"  => PyObject array(['malignant', 'benign'], dtype='<U9')
  "data"          => [17.99 10.38 … 0.4601 0.1189; 20.57 17.77 … 0.275 0.08902;…
  "filename"      => "C:\\Users\\user\\.julia\\conda\\3\\lib\\site-packages\\sk…
  "target"        => Int32[0, 0, 0, 0, 0, 0, 0, 0, 0, 0  …  1, 1, 1, 0, 0, 0, 0…
  "DESCR"         => ".. _breast_cancer_dataset:\n\nBreast cancer wisconsin (di…

In [42]:
X = data["data"]   # 特徴量
y = data["target"] # 目的変数
X, y

([17.99 10.38 … 0.4601 0.1189; 20.57 17.77 … 0.275 0.08902; … ; 20.6 29.33 … 0.4087 0.124; 7.76 24.54 … 0.2871 0.07039], Int32[0, 0, 0, 0, 0, 0, 0, 0, 0, 0  …  1, 1, 1, 0, 0, 0, 0, 0, 0, 1])

In [36]:
# 悪性（y == 0）のデータ数を確認
length(y[y .== 0])

212

In [43]:
# 特徴量並び順を確認
data["feature_names"]

PyObject array(['mean radius', 'mean texture', 'mean perimeter', 'mean area',
       'mean smoothness', 'mean compactness', 'mean concavity',
       'mean concave points', 'mean symmetry', 'mean fractal dimension',
       'radius error', 'texture error', 'perimeter error', 'area error',
       'smoothness error', 'compactness error', 'concavity error',
       'concave points error', 'symmetry error',
       'fractal dimension error', 'worst radius', 'worst texture',
       'worst perimeter', 'worst area', 'worst smoothness',
       'worst compactness', 'worst concavity', 'worst concave points',
       'worst symmetry', 'worst fractal dimension'], dtype='<U23')

In [44]:
# 特徴量のデータを確認
X

569×30 Array{Float64,2}:
 17.99   10.38  122.8   1001.0  0.1184   …  0.7119  0.2654   0.4601  0.1189 
 20.57   17.77  132.9   1326.0  0.08474     0.2416  0.186    0.275   0.08902
 19.69   21.25  130.0   1203.0  0.1096      0.4504  0.243    0.3613  0.08758
 11.42   20.38   77.58   386.1  0.1425      0.6869  0.2575   0.6638  0.173  
 20.29   14.34  135.1   1297.0  0.1003      0.4     0.1625   0.2364  0.07678
 12.45   15.7    82.57   477.1  0.1278   …  0.5355  0.1741   0.3985  0.1244 
 18.25   19.98  119.6   1040.0  0.09463     0.3784  0.1932   0.3063  0.08368
 13.71   20.83   90.2    577.9  0.1189      0.2678  0.1556   0.3196  0.1151 
 13.0    21.82   87.5    519.8  0.1273      0.539   0.206    0.4378  0.1072 
 12.46   24.04   83.97   475.9  0.1186      1.105   0.221    0.4366  0.2075 
 16.02   23.24  102.7    797.8  0.08206  …  0.1459  0.09975  0.2948  0.08452
 15.78   17.89  103.6    781.0  0.0971      0.3965  0.181    0.3792  0.1048 
 19.17   24.8   132.4   1123.0  0.0974      0.3639 

In [46]:
"""
上記より、特徴量は
平均値10項目分, エラー値10項目分, 最悪値10項目分
の並びでデータが格納されている
"""
# 今回は平均値のみ特徴量として採用することにする
## => 行: すべて, 列: 1列目～10列目 を切り出す
X = X[:, 1:10]

569×10 Array{Float64,2}:
 17.99   10.38  122.8   1001.0  0.1184   …  0.3001   0.1471   0.2419  0.07871
 20.57   17.77  132.9   1326.0  0.08474     0.0869   0.07017  0.1812  0.05667
 19.69   21.25  130.0   1203.0  0.1096      0.1974   0.1279   0.2069  0.05999
 11.42   20.38   77.58   386.1  0.1425      0.2414   0.1052   0.2597  0.09744
 20.29   14.34  135.1   1297.0  0.1003      0.198    0.1043   0.1809  0.05883
 12.45   15.7    82.57   477.1  0.1278   …  0.1578   0.08089  0.2087  0.07613
 18.25   19.98  119.6   1040.0  0.09463     0.1127   0.074    0.1794  0.05742
 13.71   20.83   90.2    577.9  0.1189      0.09366  0.05985  0.2196  0.07451
 13.0    21.82   87.5    519.8  0.1273      0.1859   0.09353  0.235   0.07389
 12.46   24.04   83.97   475.9  0.1186      0.2273   0.08543  0.203   0.08243
 16.02   23.24  102.7    797.8  0.08206  …  0.03299  0.03323  0.1528  0.05697
 15.78   17.89  103.6    781.0  0.0971      0.09954  0.06606  0.1842  0.06082
 19.17   24.8   132.4   1123.0  0.0974 

In [31]:
# 分類問題 -> ロジスティクス回帰を採用
@sk_import linear_model: LogisticRegression

model = LogisticRegression()

PyObject LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [47]:
# ロジスティック回帰モデルで教師データを学習
fit!(model, X, y)



PyObject LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
                   intercept_scaling=1, l1_ratio=None, max_iter=100,
                   multi_class='warn', n_jobs=None, penalty='l2',
                   random_state=None, solver='warn', tol=0.0001, verbose=0,
                   warm_start=False)

In [48]:
# 上記で訓練を行った学習済みモデルを用いて、予測を行う
## 10項目の特徴量 から 目的変数（悪性, 良性 の２値）を予測
y_pred = predict(model, X)

569-element Array{Int32,1}:
 0
 0
 0
 1
 0
 1
 0
 1
 0
 0
 0
 0
 0
 ⋮
 1
 0
 1
 0
 1
 0
 0
 0
 0
 0
 0
 1

In [49]:
# 上記予測結果が正確か評価する
@sk_import metrics: accuracy_score

# 正解率を算出
accuracy_score(y, y_pred)

0.9086115992970123

#### 評価方法について
本来、学習データと検証データは別に用意しておかなければならない

上記のように、学習データを検証データとして使ってしまうと、未知のデータに対しても正確に予測できるモデルなのか評価することができない

上記では正解率が約90％となっているが、これは既知の答え（目的変数）に近づけるようにパラメータを調整（学習）しているため、ある意味当然の結果である（特徴量と目的変数に明確な因果関係があればという前提ではあるが）

これは、教師学習における過学習（オーバーフィッティング）とも関連する問題である

また、評価方法についても、正解率だけでモデルの正確性を担保できるわけではないため、データの特性によってふさわしい評価方法を考える必要がある