# 8 おわりに

## 8.1 機械学習問題へのアプローチ
* 機械学習を有効に活用するには、まずどのような問題に答えようとしているかを考える
* ゴールを実現するシステムを作る前に、成功を測る基準をどう設定するか、成功した場合にビジネスもしくは研究の目的全体にとってどのような影響があるか考える
* 解くべき問題を定義でき、プロジェクトに対して解決手法が大きな影響を持つことがわかり、成功したことを測定するための情報があると確信できた場合、次のステップは、通常、データの取得とプロトタイプの構築になる
* モデルを試す際は、それが大きなデータサイエンスワークフローのごく一部であることを忘れてはいけない
* 多くの場合、モデル構築は、新しいデータを集めて生成し、モデルを構築して解析する、大きなフィードバックループの一部となっている
* データをより多く、より多様に得ることや、タスクの構成を変更することは、無限にグリッドサーチを行いパラメータを調整することよりはるかに実りが多い

### 8.1.1 人間をループに組み込む
* 即座に判断する必要がない処理も有り、そのような場合は、確信が持てないには人間に確認してもらうことができる
* 多くのアプリケーションでは、アルゴリズムが判断できる「単純な場合」がほとんどを占める
* 比較的少ない「複雑な場合」のみを人間に任せれば良い

## 8.2 プロトタイプから運用システムへ
* Pythonやscikit-learnは多くの会社で運用システムとして用いられているが、多くの会社は複雑なインフラを持っており、いつも容易にPythonを組み込めるとは限らない（これは特に問題はない）
* データ解析チームは素早くアイデアを実証することのできるPythonやRなどの言語を使用し、運用チームは、Go,Scala,C++,Javaなどを用いて頑健でスケーラブルなシステムを構築する
* 比較的よく使われる方法は、解析チームが見つけた解決方法を、より大きなフレームワークで、高性能向け言語で再実装すること
* 運用システムでscikit-learnを使えるかどうかに関わらず、運用システムには、使い捨ての解析スクリプトとはことなう性質が要求されることを覚えておく
* 複雑な機械学習システムを構築する場合は、「Machine Learning: The High Interest Credit Card of Technical Debt」を参考にすると良い

## 8.3 運用システムのテスト
* アルゴリズムによる予測を事前に収集したテストセットで評価する方法は、オフライン評価と呼ばれ、次のステップはオンラインテストもしくはライブテストと呼ばれるものになる
* Webサイトがユーザーに提示する推薦や検索結果を変更すると、ユーザーの挙動は大きく変化し。予想外の結果を招く可能性があるため、このようなことがないように、多くのユーザーに対するサービスではA/Bテストと呼ばれる、情報を伏せたユーザー調査を行う
* A/Bテストでは、一部のユーザーに、それと知らせずにアルゴリズムAを用い、残りのユーザーにはBを用いる
* それぞれのグループに対して、一定の期間、成功の基準となる値を記録し、その値で2つの方法のどちらかを選択する
* A/Bテストはアルゴリズムを「実際の環境」で評価するので、ユーザーとモデルの関わりによって起こる予想外の結果を見つけることができる
* 多くの場合には、Aに新しいモデルを、Bに既存のモデルを用いる
* オンラインテストには、バンディットアルゴリズムなどの、A/Bテストよりも複雑な手法がある（邦題『バンディットアルゴリズムによる最適化手法』、オライリー・ジャパンが詳しい）


## 8.4 独自Estimatorの構築
* scikit-learnで実装されていない特定の処理をしなければならない場合もある
* データに依存する処理は交差検証ループの中で行うことが重要なため、独自の前処理をscikit-learnのツールで実行するには、独自のEstimatorを実装すれば良い
* 変換器クラスを実装するには、BaseEstimatorとTransformerMixinを継承して、\_\_init\_\_、fit_predictメソッドを実装するのが一番簡単

In [None]:
from sklearn.base import BaseEstimator,TransformerMixin

class MyTransformer(BaseEstimator,TransformerMixin):
    def __init__(self,first_parameter=1,second_parameter=2):
        # すべてのパラメータを__init__メソッドで指定すること
        self.first_parameter=1
        self.second_parameter=2

    def fit(self,X,y=None):
        # fitはXとyだけを引数とする
        # モデルが教師なしであっても、引数yを受け取る必要がある

        # モデルの学習を個々で行う
        print("fitting the model right here")
        # fitはselfを返す
        return self

    def transform(self,X):
        # transformは引数Xだけを受け取る

        # Xに対して変換を行う
        X_transformed=X+1
        return X_transformed

* クラス分類器や回帰器を実装する場合は、TransformerMixinではなく、ClassifierMixinやRegressorMixinを用い、transformではなく、predictを実装する

## 8.5 ここからどこへ行くのか

### 8.5.1 理論
* 『統計的学習の基礎：データマイニング・推論・予測』共立出版
* 『Machine Learning: An Algolithmic Perspective』（Chapman and Hall/CRC）（Pythonコード付き）
* 『パターン認識と機械学習』、上下巻、丸善
* 『Machine Learning: A Probabilistic Perspective』（MIT Press）

### 8.5.2 他の機械学習フレームワークとパッケージ
* Pythonはモデルを試したり評価したりするのには適しているが、大規模なWebサービスやアプリケーションは、JavaやC++で書かれていることが多い
* 機械学習モデルを運用するには、このようなシステムに組み込まなければならない
* 予測よりも推論や統計モデルに興味がある場合は、Pythonのstatsmodelパッケージを使うことを検討しても良い（統計に適したインターフェイスを持ついくつかの線形モデルが実装されている）
* RはPythonと並ぶデータサイエンティストの共通語で、統計解析似特化して設計されており、豊富な可視化機能と、様々な（しばしば高度に問題に特化された）統計モデルパッケージが利用できる
* C++で書かれた高度に最適化されたパッケージのvowpal wabbit（vw）もよく使われる（コマンドラインから利用する）
* vmは大規模なデータセットやストリーミングデータに特に有効
* クラスタに分散して機械学習を実行するには、mllibがよく使われている（spark分散計算環境上に構築されたScalaのライブラリ）

### 8.5.3 ランキング、推薦システム、その他の学習
* ランキング（ranking）は特定の問い合わせに対して、関連する順番で一連の答えを返す（サーチエンジンなどがこれに当たる）
* ランキングに関しては、『情報検索の基礎』（共立出版）が良い入門書となっている
* 推薦システム（recommender systems）は、ユーザの好みに応じて提案を行うシステム（おすすめの商品など）
* 「Netflix prize challenge」では映画の嗜好に関する大規模なデータセットを公開している

### 8.5.4 確率モデル、推論、確率プログラミング
* 問題に固有の構造は確率論の言葉で表現することができる（予測しようとする状況の数学的なモデルから、問題の構造が導かれる）
* さまざまな要素が与える影響を適切にモデル化して状況を表現できさえすれば、モデルを直接計算して予測を行う方法がある（最も一般的なものは確率プログラミング言語と呼ばれるものを用いる方法）
* PyMC（Pythonで利用できる）とStan（Pythonを含むいくつかの言語から利用できるフレームワーク）を利用すれば、非常に容易に新しいモデルを作ることができる

### 8.5.5 ニューラルネットワーク
* 『Deep Learning』（MIT Press）

### 8.5.6 大規模データセットへのスケール
* 多くのアプリケーションでは、機械学習システムを構築するのに用いるデータセットはそれほど大きくなく、数百ギガバイトになるデータセットをはほとんどない
* このような場合には、メモリを増設するかクラウドプロバイダから仮想計算機を借りるのが現実的な解となる
* 数テラバイトになるデータが必要な場合、もしくは限られた予算で大容量のデータを扱わなかればならない場合、2つの基本的な戦略としてアウトオブコア学習（out-of-core learning）とクラスタ並列化がある
* アウトオブコア学習は、メインメモリに入り切らないデータを1台の計算機（さらには1つのプロセッサ）で処理する学習のこと
* データはハードディスクやネットワークなどから、メモリに格納できるように、1サンプルずつ、もしくは複数サンプルの塊で読み出され、読み込んだデータを処理して学習し、モデルを更新する
* その後このデータは破棄され、次のデータを読み込む
* scikit-learnの一部のモデルでは、アウトオブコア学習が実装されている
* アウトオブコア学習は、すべてのデータを1台の計算機で処理するため、非常に大規模なデータセットでに対しては実行時間が長大になる
* スケールアウトするためのもう一つの戦略は、計算機クラスタの複数の計算機にデータを分割し、それぞれの計算機にデータの一部を処理させる方法がある
* 一部のモデルではこの方法は高速に実行でき、処理できるデータサイズはクラスタのサイズによってのみ制限される
* このような計算を行うには比較的複雑な計算機基盤が必要となるが、そのような分散計算プラットフォームとして現在最も一般的なものがHadoop上に構築されるsparkである
* sparkにはMLlibパッケージという機械学習機能が容易されている
* データがすでにHadoopファイルシステム上にあるのなら、sparkを使うのが最も簡単な方法になる
* このような計算基盤がない場合はは、vwパッケージの持つ分散機能を使ったほうが良い

### 8.5.7 名誉を得る
* データセットとタスクが手近にない場合は、機械学習のコンペティションに挑戦すると良い
* コンペティションを探すには、Kaggleを見るとよい
* さらなるデータセットと関連するタスクが、OpenMLプラットフォームにある
* コンペティションの問題点は、最適化すべき基準と、多くの場合は固定された処理済みのデータセットが与えられていること
* 実世界の問題では、問題を定義しデータを集めること自体も重要な側面であり、問題を適切に表現することは、クラス分類機の性能をわずかに向上させるよりも遥かに重要

## 8.6 結論
* 問題の全体像を見ることを忘れない