# Machine Learning Snippet 01
### <i>Summary of Analysis</i>
- <b>Dataset</b> :: Iris
- <b>Task</b> :: Classification
- <b>Evaluation</b> :: Accuracy
- <b>Library</b> :: sklearn
- <b>Results</b>
    1. Support Vector Machine :: 0.97
    1. Ada Boost :: 0.96
    1. Extra Trees :: 0.94
    1. Gradient Boosting :: 0.96
    1. Random Forest :: 0.94

### 分析環境の構築
#### ライブラリの読み込み
サンプルデータにはirisを用いることとし，データフレームへの変換のためにpandasを用いる．乱数のシードを固定するためにnumpyを使用する．
sklearnからは変数の次元縮約のためにTruncateSVDを，分類器構築のためにLinearSVC，AdaBoost，ExtraTrees，GradientBoosting，RandomForestを用いる．また交差検証のためにcross_val_scoreをロードする．

In [56]:
import pandas as pd
from sklearn import datasets
from sklearn.decomposition import TruncatedSVD
from sklearn.svm import LinearSVC
from sklearn.ensemble import AdaBoostClassifier,ExtraTreesClassifier ,GradientBoostingClassifier, RandomForestClassifier
from sklearn.cross_validation import cross_val_score
import numpy as np

#### データセットの準備

In [57]:
iris     = datasets.load_iris()
features = iris.data
labels   = iris.target

データセットの内容を確認する．Rのデータフレームに当たる形式の方が読みやすいので，pandasを使ってDataFrameに変換して表示する．

In [58]:
pd.DataFrame(features).head(5)

Unnamed: 0,0,1,2,3
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [59]:
pd.DataFrame(iris.target).head(5)

Unnamed: 0,0
0,0
1,0
2,0
3,0
4,0


### 分析開始
#### オリジナルの変数を使用
ひとまず全ての変数をそのまま投入した場合の結果を見てみる．

In [60]:
np.random.seed(123)
classifier_names = ["LinearSVC", "AdaBoostClassifier", "ExtraTreesClassifier",
                    "GradientBoostingClassifier", "RandomForestClassifier"]
for classifier in classifier_names:
    model = eval("%s()" % classifier)
    res   = cross_val_score(model, features, labels, cv = 5)
    score = sum(res) / len(res)
    print("Score of %s is %s" % (classifier, score))

Score of LinearSVC is 0.966666666667
Score of AdaBoostClassifier is 0.946666666667
Score of ExtraTreesClassifier is 0.946666666667
Score of GradientBoostingClassifier is 0.96
Score of RandomForestClassifier is 0.946666666667


#### 変数を加工して使用
変数をそのまま使うのではなく、特異値分解を用いて次元を圧縮したものを使用．lsaはLatent Semantic Analysis（潜在意味解析）の意．ここでは二次元に圧縮した変数を説明変数として使用する．全体的にちょっと良くなる．

In [61]:
lsa = TruncatedSVD(2)
reduced_features = lsa.fit_transform(features)

In [62]:
np.random.seed(123)
classifier_names = ["LinearSVC", "AdaBoostClassifier", "ExtraTreesClassifier",
                    "GradientBoostingClassifier", "RandomForestClassifier"]
for classifier in classifier_names:
    model = eval("%s()" % classifier)
    res   = cross_val_score(model, features, labels, cv = 5)
    score = sum(res) / len(res)
    print("Score of %s is %s" % (classifier, score))

Score of LinearSVC is 0.966666666667
Score of AdaBoostClassifier is 0.946666666667
Score of ExtraTreesClassifier is 0.946666666667
Score of GradientBoostingClassifier is 0.96
Score of RandomForestClassifier is 0.946666666667
