
# 機械学習は 教師の有無 × 分類OR予測 × 特徴エンジニアリング．そして交差検定
1. (教師あり 数値予測) 複雑なモデルは過学習を起こし，逆に単純だと誤差を小さくしきれない
2. (教師あり 多値分類) 数値特徴量の集合に対する最初のアプローチは，K近傍法による分類の結果をK分割交差検定で検証
3. (教師なし 多値分類) シンプルな文書分類にはbag-of-words ＋ KMeans
    - bag-of-words: 出現回数やTF-IDF(単語の貴重さ)を基準にVectorizerで単語をベクトル化．文書をベクトル集合とする．  
4. (教師なし 多値分類) 文書データに複数のラベル付けを行いたいときは，トピックモデル
    - 潜在的ディリクレ分布(LDA): トピックによる文書生成モデル．オバマとトランプの違いを吸収．wordcloud, 次元削減，類似文書の検索などにもOK．
5. (教師あり 二値分類) 分類結果を確率で取得する，ロジスティック回帰による文書の2値分類
    - ロジスティック回帰: オッズ比の対数関数の逆関数に入力する線形式の最適化．回帰分析＋シグモイド関数による確率化に相当．係数で次元削減可．
    - 二値ラベルが偏ったデータは，何も考えず片方を出すだけで正答率が上がってしまうので，PRCurveのAUC(線下面積)によるモデル評価が有効．
        - 適合率(冤罪を起こさない確率)と再現率(犯人を逃さない確率)のトレードオフがなるべく起きないようにする
6. (教師あり 二値分類) 特徴量同士が独立に近いならば，ナイーブベイズによる分類も有効
    - ナイーブベイズ：そのラベルの付いたデータの割合 × そのラベルのついたデータがその特徴量を持っている割合　が最大のラベルを選択
    - GridSearchCVによって最適なハイパーパラメータの組み合わせを求められる．
        - 「最適」の指標にはF値(適合率と再現率の調和平均, 逆数の平均，率の平均，低い方に引っ張られる)を使用．
7. (教師あり 数値予測) 数値データを推論する最小二乗法は，罰則項で過学習を防げる
    - 罰則項： L1(Lasso, 特徴量の絶対値，次元削減)，L2(Ridge, 特徴量の2乗，特徴量をバランスよく)，Elastic Net( αL1+(1-α)L2 )
    - 最終的なCV用に訓練データを分離→分離した訓練データからさらに訓練データを分離→その訓練データで対象パラメータの訓練を行う
8. (半教師あり 数値予測) 似た商品を購入しているユーザが購入している商品を推薦
    - アンサンブル学習: 最小二乗法 ＋ 相関係数　のように複数の特徴量を組み合わせる．係数の低いものは削減できたり，新しい特徴量を得られたり．
    - バスケット分析: 「この商品を買った人はこんな商品も買っています」
        - 頻出アイテム集合の列挙: アプリオリアルゴリズム(1つの商品からはじめ，別の商品を追加しても頻出する組み合わせを列挙)
        - X買ったらYも買う，アソシエーションルールのマイニング: LIFT値(誰もが買っている商品に対するペナルティを課す)
9. (教師あり 多値分類 特徴エンジニアリング) 音楽の分類にはFFTより，専門家の設計したより良い特徴量を使う．
    - 多値分類問題は1対多の二値分類問題に変換できる．
    - ROC曲線のAUCによる評価: TP rate VS FP rate, 別々のラベル内での正解率を指標とするので偏りに強いが，PR曲線よりは鈍感
    - メル周波数ケプストラム係数(MFCC): 波形→離散フーリエ変換→対数を取る→メルフィルタバンクをかける→離散コサイン変換→低次の係数を取得
10. (教師あり 多値分類 特徴エンジニアリング) 画像データの特徴量
    - テクスチャベースの特徴量: 明暗の差による画像の分類
        - Haralickテクスチャ特徴量，Linear Binary Patterns特徴量(線形演算を行なっても不変なので，照明の変化にロバスト) など
        - ソーベルフィルタによる特徴量: 水平方向のフィルタと垂直方向のフィルタでエッジ検出を行い，それらの内積を，画像の「エッジさ」とする．
    - 局所特徴量による記述子: 画像の局所的な領域を対象に計算される特徴ベクトル
        - SURF(Speeded Up Robust Features), SIFT(Scale-Invariant FeatureTransform) など
            - これらで得られた記述子をクラスタリングにかけることで，似たような音声を同じ単語と認識するように画像のクラス分けができる
11. (特徴エンジニアリング) 不必要な特徴量を削除することで，テスト精度向上，高速化，可視化などのメリットが得られる．  
    - フィルター法による特徴選択: 相関係数(線形な関係性のみ) や 相互情報量(片方が分かったときもう片方がどれだけ分かるか) の高い特徴量を削除
    - ラッパー法による特徴選択: RFE(再帰的特徴削減)など，分類器をラッピングし，訓練しながら影響の小さな特徴量を削除していく
    - 特徴抽出: 特徴選択よりさらに次元を削減したい場合や，可視化したい場合に行う
        - 主成分分析(PCA): 共分散行列の固有ベクトルに対応する固有値の大きい順に取得，非線形関係や小分散データが重要な時は弱い
        - 線形判別分析(LDA): クラス内の分散を最小化する教師ありの手法．クラス数が多く，クラス当たりのサンプルが少ないと弱い
        - 多次元尺度構成法(MDS): 変換後の低次元空間での距離が元の特徴空間上での距離とできるだけ似るようにする．可視化に使える．
12. (計算の高速化，効率化) ビッグデータとは，コンピュータが処理しきれないデータ
    - jug: 関数をタスク化することで，一時的な結果をキャッシュして置いたり，並列計算させたりできるパッケージ
    - AWS: 処理能力の高い環境を時間単位でレンタルできる．starclusterやboto3によるスクリプトで，jugと合わせてマシンを並列起動させられる．

# 1章 Pythonではじめる機械学習

- データを理解し，データを扱いやすい形に整形することは大事
- アルゴリズムの出した結果に対して，正しい評価を行うことが大事
    - 訓練データとテストデータを区別したり
- モデルとは，複雑な現実世界で起こる現象を理論的に単純化して近似したもの
    - モデルと実際のデータの誤差を小さくし，かつ未知のデータにも正しい答えを出力できるようにするのが目的
- 多項式フィッティングを使ってWebトラフィックの予測を行なった．
    - 次数を大きくしすぎると過学習を起こす
    - データの特徴から，フィッティング曲線を時間毎に分けてみることも一つの手

# 2章 実例を対象とした分類法入門
クラス分類の基本的な話
- データセット
    - Irisデータセット： 小規模で広く使われている
    - Seedsデータセット： 小麦の産地を7つの特徴量から推定する
- 分類モデル
    - 閾値を使ったモデル: 人間の知識やデータの考察が必要
    - 最近傍法: 訓練特徴量をベクトルとし，もっとも近いN次元上の点のラベルを正解とする手法
    - K近傍法: もっとも近いK個の点のラベルの多数決の結果を正解とする手法
- 評価手法
    - 訓練データをモデルの評価に使ってはいけない
    - 交差検定
        - leave-one-out: データの一つを取り除いてそれ以外のデータで訓練した結果，取り除いたデータに対し正しい結果を返すかを確かめる
        - K分割交差検定: データをK個に分割し，それぞれのブロックを取り除いて訓練した結果，取り除いたブロックに対しどれだけ正しい結果を返すかを確かめる
- 特徴量について
    - 洗練されたアルゴリズムより良いデータ，良い特徴量
    - 特徴選択： 良く分類ができる特徴量を選択する手法
    - 特徴エンジニアリング: 良く分類ができるような特徴量を，現存する特徴量から計算で作り出す

# 3章 クラスタリング 関連のある文書を見つける

関連する文書を素早く見つけるため，文書のクラスタリング(教師なし学習)を行った．

- 文書の前処理
    - bag-of-words化: 単語の出現回数を数え，その文書の特徴とする，Scikit-Learnでできる
        - 同じ文章が繰り返されているだけで単語の重要度が上がってしまうので，出現回数の正規化を行う
        - min_df, max_df: 滅多に出現しない単語，非常に多く一般的に使われる単語を取り除く
        - stop words: その言語体系で文書の分類に貢献しないような一般的な単語を取り除く
        - ステミング: 語幹を数える (ex. imaging -> image)
        - TF-IDF: その単語がどれだけすべての文書の中で特徴的かを表す指標，Scikit-Learnで算出できる
    - N-gram: not eatのように否定を表したりすることを認識させたいならば，前後するペア(バイグラム)や3つの単語(トリグラム)を利用する
- クラスタリング手法
    - 新しい文書を分類するとき，bag-of-wordsのノルムを見れば良いだけになり，素早い分類が可能になる
    - フラットクラスタリング: 全てのデータが高々１つのクラスタに所属
        - KMeans: 広く使われるクラスタリング手法
            1. クラスタの数num_clustersを指定して初期化
            1. num_clustersの数だけランダムにデータを選び出し，それらの特徴ベクトルを各クラスタの中心点とする
            1. その他のデータは，もっとも近い中心点を持つクラスタに所属させる
            1. 全てのデータのクラスタが決まったら，各クラスタの中心を新たに計算し，そこに中心点を移動させる
            1. 中心点の移動量が閾値を下回る(収束)，または指定の繰り返し回数に達するまで2~4を繰り返す
    - 階層的クラスタリング: クラスタのクラスタ，のように階層構造を持つ
    - コサイン類似度，ピアソンの相関係数，Jaccard係数などの他の類似度の指標を使ったりしてマイナーチェンジしてみてもいい
    - 良いクラスタリングの指標を明確にするのが大事．代表的な指標はsklearn.metrixにある．

文書のクラスタリングをするときの流れ
1. 文書データを集める
1. 文書データをScikit-LearnでVectorizeする
1. Vectorizeされた文書をScikit-LearnのKMeansなどでクラスタリング
1. 新しい文書データを分類する
    1. 新しい文書データをVectorizeする
    1. クラスタリング結果を持つKMeansに文書をPredictさせると，新しい文書データの所属するクラスタが素早くわかる

# 4章 トピックモデル
トピックモデル: データの一つ一つを「複数の」グループに割り当てる問題を扱う分野．で，文書データを分類
- LDA(潜在的ディリクレ配分法, Latent Dirichlet Allocation): 最も単純なトピックモデル
    - テキスト分類を考える．
        - すべての単語に，関連するトピックを割り当てる．
        - トピックの正体は単語についての多項分布で，各単語とそのトピックとの関連の深さを確率で表現している．
        - ドキュメントに入っている単語のトピック強度の総和がそのドキュメントのトピック強度になる．  
        - LDAは文章生成モデルで，あるトピックを選ぶとそのトピックのドキュメントが最もよく生成されるようにフィッティングする．
    - 例えば，オバマと書いてあるドキュメントとトランプと書いてあるドキュメントを，トピックが似ている，と分析できる．
    - gensimパッケージでLDAを使える．
        - コーパスとid2wordを与えてやると学習完了．モデルにドキュメントを与えると関連するトピックが返ってくる．
        - alphaで一つのドキュメントに割り当たるトピックの数が変わる．
        - あるトピックが何のトピックであるのかは，そのトピックのトピック強度が強い単語を見て考えてやる．
        - 前処理(ステミングや無関係文字の削除)を行うとなおよい
        - alphaやトピック数といったパラメータを変えても，最終的な結果にはあまり影響がない．
    - 学習後のモデルそのままでもwordcloudによる可視化などで役に立つ．
    - 次元削減の効果があり，他の手法の中間的な役割を担うこともできる．
    - 各ドキュメントのすべてのトピック強度をベクトルとすると，最もトピックが近い文章を求めることができる．
- 階層ディリクレ過程(hierarchical Dirichlet process: HDP): トピック数をデータセットに応じて自動決定するトピックモデル
    - 直観的には，文章が多ければ多いほど多くのトピックを得ることを利用する．
    - 例えば，ニュースの記事データが少なければトピックは「スポーツ」になるかもしれないが，多ければ「サッカー」などと細かくできる．
    - この手法はgensimに用意されており，先ほどのLDAをHDPに変えるだけで実現できる．

# 5章 クラス分類 悪い回答を判別する

ノイズの多いテキストデータを良い回答，悪い回答に分類するにはどうすれば良いか？という問題に取り組んだ．  
使用したデータはstackoverflowの問答データ．教師データになりそうなのはScore．  
以降の分類器はscikit-learnに便利な関数が多数用意されている．  

- K近傍法による分類
    - 特徴量を増やしたり，Kの値を大きくしてモデルを単純にしても，時間がかかるだけで精度が上がらないことがある．  
    - モデルを単純にしても特徴量を改良してもバリアンスが高いので，K近傍法はこのタスクに向かないとわかった．
        - バイアス-バリアンストレードオフ
            - (エラーの)バイアスが高い->未学習, 訓練誤差もテスト誤差も大きい, データのノイズが多い， 特徴量の設計がマズい
            - バリアンスが高い->過学習, 訓練誤差とテスト誤差の差が大きい, モデルが複雑すぎる
            - これらはトレードオフであり，最適解を探したい
- ロジスティック回帰による分類
    - ロジスティック回帰: どんな入力にも白か黒かの確率を返す関数の回帰による最適化
        - 要は「オッズ比の対数関数の逆関数に入力する線形式の最適化」
        - オッズ比：$P/(1-P)$
        - 入力無限領域，出力0~1の確率の形にできる
        - 1次式を入力するシグモイド関数とも言える
        - バイアス+ 係数 ＊ 特徴量の値 + 係数 ＊ 特徴量の値 + ... をロジスティック回帰の式に入力することでクラスに属する確率を得る
        - 正規化パラメータCがある
    - 最適なCを選んでも，90NNと同じくらいの精度しか出ない．
        - バイアスが大きい
    - 悪い回答の確率と良い回答の確率をそれぞれ求めるより，片方を求めてもう片方はあまり，としたときの精度の方が役に立つのでは？
        - 適合率-再現率曲線(Precision-Recall curve)のAUC(Area Under Curve)がもっとも大きい閾値を求める
            - 適合率： $TP / (TP + FP)$ 冤罪を起こさない確率
            - 再現率: $ TP / (TP + FN) $ 犯人を逃さない確率
            - 適合率と再現率はトレードオフ． 再現率をあげてもどれだけ適合率が下がらないかをグラフでみるのが適合率-再現率曲線
    - 結果として，良い回答かどうかを分類する方が，悪い回答かどうかを分類するより高いAUCを出せることがわかった．  
    - ロジスティック係数が0に近い特徴量は分類器の精度にあまり影響を与えないので省ける
    - このモデルをで保存しておくことで，Webサービスなどでは素早く回答の良し悪しを判別させられる．
        

# 6章 クラス分類Ⅱ 感情分析
ツイートのポジティブ/ネガティブ分類器を作る．  
- ナイーブベイズ
    - 分類したいクラスを$C$,特徴量を$F_1, F_2$とするとベイズの定理から$$ P(C | F_1, F_2) = \frac{P(C) \cdot P(F_1, F_2 | C)}{P(F_1, F_2)} $$
    - $P(C | F_1, F_2)$: 事後確率 $F_1$と$F_2$がわかっているとき，そのデータがクラス$C$に属する確率
    - $P(C)$: 事前確率, データについて何も情報がない場合にそのデータがクラス$C$に属する確率
    - $P(F_1, F_2 | C)$: 尤度, あるデータがクラス$C$に属することがわかっている場合，特徴量がその$F_1，F_2$である確率
    - $P(F_1, F_2)$: 証拠, 特徴量がその$F_1$と$F_2$をとる確率, 該当する特徴量が全体に占める割合を計算して求める
    - これよりクラスの判定結果は$$ C_{best} = \arg \max_{c \in C} P(C=c) \cdot P(F_1 | C=c) \cdot P(F_2 | C=c) $$
    - 新出データに対して確率を求めると証拠が0になってしまうので，全ての単語が1度は出ていることを仮定するスムージングを行う．
        - 加算スムージング(ラプラススムージング): 全ての頻度に1を足す
        - Lidstoneスムージング: 0以上のパラメータ$\alpha$を足す
    - 実用上は，限りなく小さい確率の積によるアンダーフローを防ぐため，積を和に変換できる対数をとる．この場合，
    $$ C_{best} = \arg \max_{c \in C} \log P(C=c) + \sum_k \log P(F_k | C=c) $$
    - sklearnには3つのナイーブベイズ分類器が用意されている． 今回はMultinomialNBを利用．
        - GaussianNB: 特徴量が正規分布(ガウス分布)にしたがって分布すると仮定, 身長と体重から性別を分類する問題など
        - MultinomialNB: ある事象が発生した回数を特徴量としていると仮定, TF-IDFと相性がよい
        - BernoulliNB: 単語が出現した / 出現していない の2値で特徴量が表される場合に適している．  
<br>
- ポジティブとネガティブを判定する分類器
    - TfidfVectorizer->MultinomialNB というモデルを Pipelineで繋いだモデルで分類．
    - 以降，データが少ないので，交差検定を行う．ShuffleSplitでテストデータと訓練データを分ける．
    - 正解率80%, AUC(Area Under precision-recall curve)88%(以下80/88のように表記)の良い感じの結果に．  
<br>
- 全てのクラスを判定する分類器
    - 感情を含む / 含まない: 79/67: 感情を含むツイートは2割なので役立たず
    - ポジティブ/ その他: 90/27: PRカーブの成績が悪い
    - ネガティブ/ その他: 88/47: PRカーブの成績が悪い
    - データに偏りがあるのでPRカーブを信じるべき．するとこの結果はあまり良くない．  
<br>
- 感情を含む / 含まないの判定についてパラメータ最適化を行なった分類器
    - GridSearchCVによって交差検定(Cross Validation)の結果が最も良いパラメータを全探索
        - Param_grid = {"vect__ngram_range": [(1,1), (1,2), (1,3)]} のような辞書を作る．
    - 交差検定の指標にはF値(metrics.f1_scoreで実装)を用いる．$$ F = \frac{2 \cdot precision \cdot recall}{precision + recall} $$
        - precisionとrecallの調和平均(逆数の平均の逆数,率の平均を取るのに適する,値の小さい方に引っ張られる平均)
    - 感情を含む / 含まない: 83/70 ちょっと良くなった  
<br>
- ツイートの整形を行う分類器(パラメータ最適)
    - TfidfVectorizerにpreprocessorを渡す．
        - 顔文字を単語に変換
        - 短縮系の言葉を単語に分割
    - pos vs neg: 80/88, emo vs rest: 83/70, pos vs rest: 91/51, neg vs rest: 90/65  
<br>
- 単語のポジネガスコアを利用する分類器(パラメータ最適，整形済み)
    - nltk.pos_tag(nltk.word_tokenize("This is a sentense.")) による単語品詞タグづけ(Penn Treebankプロジェクト)
    - SentiWordNetのデータによる「品詞/単語」のポジネガスコアを獲得し，特徴量とする
    - BaseEstimatorを継承して，ポジネガスコアを特徴量として算出するクラスを作り，TfidfVectorizerの特徴量とFeatureUnionによって合わせる．
    - pos vs neg: 80/88, emo vs rest:83/69, pos vs rest: 91/52, neg vs rest: 89/62, 努力の割にはそんなに変わらず
    - まず感情があるかないかを分類してからポジネガ分類器にかけると良いかもしれない．

# 7章 レコメンド

- 最小二乗法の復習
    - sklearnのボストン物件価格データを利用
    - 特徴量一つだけよりバイアスを加えた方が，さらにたくさん特徴量があった方が一般的に良い精度が出る．
    - 回帰分析でも交差検定をして正しい汎化能力を確かめよう．
    - 特徴量の数P > サンプル数N のとき，訓練誤差をほぼゼロにすることができるが，汎化能力が著しく落ちる．
        - 10-K reportsのデータはP>Nとなっており，これでP>N問題を確かめた．
    - 過学習対策
        - Lasso: L1罰則項(回帰係数の絶対値の総和)をペナルティとする．
            - スパースなモデルに．
        - Ridge: L2罰則項(回帰係数の2乗の総和)をペナルティとする．
        - Elastic Net: L1, L2の比率を設定し，それらの和を罰則項とする． 
            - P>N問題の解消，相関の高い特徴量からの複数考慮といった効果がある．
- パラメータ探索には2段階の交差検定が必要
    - 1段目： テストデータと訓練データに分ける
    - 2段目： 1段目の訓練データをさらに分割し，それぞれ違ったパラメータを与えて訓練した結果，誤差が最少となったパラメータを採用
- 映画の推薦問題を罰則付き回帰分析で解いてみる
    - Netflix Challengeのアカデミック用データを利用
    - ターゲットユーザ以外のユーザが行なった評価を特徴量としてLassoで解いてみた
    - 全体の平均をスコアの予測値とするよりはLassoを使った方が8％ほどの精度改善が見られた．

# 8章 レコメンドの改良
- 映画の推薦システムの改良
    - スコアではなく，どの映画にスコアをつけたかに注目
        - スコアをつけた映画が似ているユーザのスコアを予測値とする手法
            - 各ユーザの相関係数を利用する
        - 逆に，スコアをつけたユーザが似ている映画に着目してみる手法
    - アンサンブル学習: 上記の2つの手法のような，複数の手法を組み合わせて予測を行う手法
        - 各手法の予測結果は新たな特徴量と考えられるので，回帰によって重み付けを行える．
            - 重み付けの結果，重みの小さな特徴量は役に立たず，全体のパフォーマンスを下げる可能性もある．
            - 複数の手法を簡単に比較検討する手段としても使える．
- バスケット分析: 「この商品を買った人はこんな商品も買っています」
    - どの商品が一緒に買われているかに着目する．
        - あるユーザが複数の商品を買っている時，そのユーザが他にどんなものを買う傾向があるのかを予測できる．  
        - 生活必需品など，多くの人が買わざるを得ない商品はユーザの趣味嗜好に関係がないので注意する．
    - ベルギーのスーパーマーケットでの匿名トランザクションデータ, retail.datを使って実験
    - 1. 頻出アイテム集合の列挙
        - アプリオリアルゴリズム: 頻出アイテム集合: 頻繁に購入される商品の組み合わせ をトランザクション集合から列挙する．
            - 購入頻度(支持度)が閾値(最小支持度)以上の商品1つによる集合を頻出アイテム集合とするところから始める
            - 頻出アイテム集合に一つ頻出アイテムを追加し，その支持度を求め, それがまだ最小支持度以上ならば頻出アイテム集合として記録していく
            - 新たな頻出アイテム集合がどのトランザクションに含まれているかをキャッシュすることによって高速化することができる．
    - 2. アソシエーションルールマイニング
        - 頻出アイテム集合の列挙を元に，アソシエーションルールの強さを導く
            - アソシエーションルール: 「この商品の組みあわせXを買っている人はこの商品Yを買っている傾向がある」
        - アソシエーションルールの強さの指標として，次のLIFT値を用いる. 誰もが買っている商品に対するペナルティを課している．
            $$ lift(X \Rightarrow Y) = \frac{P(Y | X)}{P(Y)} $$
        - 1で作成したキャッシュを利用することで高速化できる．
    - 他にも，買い物の順序を考慮した手法などが，pyminingというパッケージで提供されている．

# 9章 クラス分類Ⅲ 音楽ジャンル分類
音楽の複数ジャンル分類問題
- GTZANというデータセットを利用
    - 10個のジャンルのうち6個を今回は使用
- FFTによる分類: あまりうまくいかない
    - FFT, 高速フーリエ変換: 波形データを周波数の違うサイン波に分解し，周波数ごとの強度を可視化する
        - バタフライ演算による対数オーダーの高速化
    - ロジスティック回帰によるジャンル分類
        - 多値分類問題にも適用できるが，2値分類問題として学習させた方がよさげ
    - 混同行列: どのジャンルが正解のとき，どのジャンルに何曲分類されたかを可視化できる．対各成分が濃いと良い．
        - matplotlibのmatshow関数で可視化できる
    - ROC(receiver operator characteristic)曲線による評価
        - false positive rateとtrue positive rateによる曲線，こちらもP/R曲線と同様，AUCが高いほど良い
        - P/R曲線は陽性サンプルが貴重なとき有効なのに対し，ROCは分類器の振る舞いについて全体像を見たいときに利用する．
- メル周波数ケプストラム係数(MFCC)による分類: 割とうまくいく
    - MFCC
        - 音声の波形データを低次元に落とし込む「手法」
        - 波形→離散フーリエ変換→対数を取る→メルフィルタバンクをかける→離散コサイン変換→低次の係数を取得
        - libsoraパッケージで波形からMFCCを得る関数を利用可能
    - ROC曲線のAUC,混同行列の対角線の濃さ共に全体的に良好だが，カントリーやジャズの分類は難しい模様

# 10章 コンピュータビジョン パターン認識
- 基本的な画像処理 by mahotas
    - 閾値処理(二値化)
        - 大津の二値化: 高めの閾値，大まかな分離をさせたい時に有効
        - Ribler-Calvardの二値化: 低めの閾値，二値化しても細部を残したい時に有効
        - open, closeでノイズ除去
    - ガウシアンぼかし
        - 標準偏差を大きくするほど強くボケるフィルタ
        - ぼかしてから二値化すると大きめのノイズも除去できる
    - フィルタ処理
        - ソルト&ペッパーノイズ: スキャナーのシミュレーションやロバストなデータ作りに
        - 周囲をぼかす： ガウス分布で中心から外側に行くほどガウシアンぼかしを行なった画像の要素を強くする
- シンプルなデータセットのパターン認識
    - パターン認識: 画像のクラス分類
    - Haralickテクスチャ特徴量: 風景のような滑らかな画像とテキストのような明暗がはっきりした画像の分類
        - ロジスティック回帰で72%
    - LInear Binary Patterns特徴量: 線形演算を行なっても普遍なので照明の変化にロバスト
    - ソーベルフィルタを使った特徴量:
        - 水平方向のフィルタと垂直方向のフィルタでエッジ検出を行う．
        - 検出されたエッジの内積による数値化によって大域特徴量にする．
        - Haralickと合わせて84%
- 難しいデータセットのパターン認識
    - テクスチャ特徴量だと52%
    - 局所特徴量による記述
        - 画像の局所的な領域を対象に計算される特徴量
        - ランダム， グリッド， 特徴領域検出といった手法で特徴量を得る領域を指定
        - SURF(Speeded Up Robust Features), SIFT(Scale-Invariant FeatureTransform)など
            - descriptor(記述子, 画像中の対象領域を特徴ベクトルに変換した結果)を得る
        - descriptorにbag-of-wordsを適用する
            - descriptorをクラスタリングにかけることで，似たような音声を同じ単語と認識するように，画像のクラス分けができる
            - クラスター，画像の単語の数のようなものは，極端に大きかったり，小さかったりしないのが望ましい．
        - SURF: 61%, SURF+sobel+haralick: 65%

# 11章 次元削減
不必要な特徴量を削除することで，テスト精度向上，高速化，可視化などのメリットが得られる．  

- 特徴選択
    - フィルター法: 関連性の強い特徴量を削除
        - ピアソンの相関係数を関連性の指標とする
            - 線形な関連性しか見れない
            - P値： その相関係数が偶然である確率，信頼性の低さ
        - 相互情報量を関連性の指標とする
            - 相互情報量： 片方がわかったとき，もう片方のエントロピー(不確実性)をどれだけ減らすか→共依存度
            - 非線形な関連性も見れる
        - 特徴量の全てのペアの組み合わせを見ていると大変時間がかかる(2乗オーダ)
    - ラッパー法: 分類器をラッピングし，訓練しながら影響の小さな特徴量を削除していく
        - モデルの視点からは不必要な特徴量がまだあったり，複数の特徴量を組み合わせることで有用になることがあることに着目
        - RFE(Recursive Feature Elimination, 再帰的特徴削減)が主要な手法
    - 決定木やL1ノルムのように，特徴選択は学習プロセスの中に含まれていることがある．
- 特徴抽出
    - 特徴選択よりさらに削減したい場合や，可視化したい場合に行う
    - 主成分分析(Principal Component Analysis: PCA) まずはコレ！
        - 高速で逆変換可能(逆変換時の誤差を最小にする）
        - 変換後の分散を最大化(互いの相関を小さく?)
        - 平均値を引く→共分散行列を計算→固有ベクトルを求める→対応する固有値の大きい順に特徴量を取得する
        - 非線形な関係があるときは弱い．それを補うカーネルPCAという手法もある．  
        - 分散が大きい方に引っ張られる(変換後の分散を最大にしようとする)ため，分散が小さい方が重要なときクラス分けがしにくい結果になる
    - 線形判別分析(Linear Discriminant Analysis: LDA)
        - 異なるクラス間のデータポイントの分散を最大化し，クラス内の分散を最小化しようとするため，分散によって引っ張られない．
        - ラベルを渡す，「教師あり」の手法である．
        - クラス数が増え，クラスあたりのサンプルが少なくなると機能しにくくなっていく
    - 多次元尺度構成法(Multi Dimensional Scaling: MDS)（手法の総称)
        - 各データポイントを低次元空間に配置しつつ，低次元空間での新しい距離が元の特徴空間上での距離とできるだけ似るようにする
        - データの可視化に利用でき，2次元か3次元に変換されることが多い
        - データ間の距離を求められるようにしておくことが大事
    - 上記の方法がうまくいかなければ多様体学習アルゴリズムにも手を出して見ると良い．

# 12章 ビッグデータ
ビッグデータとは，コンピュータが速度やメモリ，データの大きすぎといった問題で処理しきれないデータ  
- jug
    - 長時間に及ぶ計算において，一時的な結果をキャッシュして置いたり，並列計算させたりできる
    - タスク: キャッシュを取られ，並列計算される関数．TaskGeneratorデコレータで指定．依存関係のあるタスクは自動的に解決される
    - jug executeで実行され，キャッシュディレクトリが生成される
- AWS
    - 処理能力の高い環境を一時間単位でレンタルできる
    - 大規模なマルチコア，GPUなどを使ってjugなどを利用できる
- starcluster
    - Amazonのマシン作成作業をスクリプトで自動化するためのパッケージ
    - Python2.7までしか対応していない．おそらくPython3ではboto3が推奨
    - マスターノードと複数のスレーブノードからなるクラスタを作成できる．
    - クラスタ内ではjugなどのジョブをキューイングエンジンによって分担して実行できる．

# 付録 機械学習についてさらに学ぶために
- オンラインコース
    - Coursera: スタンフォード大学の機械学習などの授業 by Ng
        - MOOC (Massive Open Online Course)と呼ばれている
- 書籍
    - パターン認識と機械学習 by ビショップ : 理論的な側面
    - Machine Learning: A Probabilistic Perspective by K. Murphy: 1100p以上の数学重視本
- Q&Aサイト
    - MetaOptimize, http://metaoptimize.com/qa : 機械学習のためのQAサイト, 有名な研究者，開発者も参加
    - Cross Validated http://stats.stackexchange.com : 統計一般のためのQAサイト，機械学習の質問も
- ブログ
    - 理論寄り
        - Machine Learning (Theory): http://hunch.net
    - 実用，実践
        - Text & data mining by practical means http://textanddatamining.blogspot.de/
        - Edwin Chen's blog http://blog.echen.me
    - 統計
        - FlowingData http://flowingdata.com
        - Normal Deviate http://normaldeviate.wordpress.com
        - Simply statistics http://simplystatistics.org
        - Statistical Modeling, Causal Inference, and Social Science http://andrewgelman.com
- データソース
    - カリフォルニア大学アーバイン校(UCI)の機械学習リポジトリ http://archive.cs.uci.edu/ml
- コンペ
    - Kaggle
        - ほとんどの勝者は，前処理，正規化，既存手法の組み合わせでやってる
- その他の機械学習パッケージ
    - Modular toolkit for Data Processing: MDP http://mdp-toolkit.sourceforge.net
    - Pybrain http://pybrain.org
    - Machine Learning Tooklit: MiLK http://luispedro.org/software/milk
        著者の一人によって開発されている
- オープンソースの機械学習リポジトリ
    - http://mloss.org

# 使用した関数のまとめ

In [None]:
# 1章 多項式による数値予測

import scipy as sp
data = sp.genfromtxt("ch01/data/web_traffic.tsv", delimiter="\t") # scipyでデータ読み込み
fp1, residuals, rank, singular_value, relative_condition_number = sp.polyfit(x, y, deg=1, full=True) # 近似モデルのパラメータを取得
f1 = sp.poly1d(fp1) # モデルパラメータからモデル関数を作成

from scipy.optimize import fsolve
fsolve(f1, 800) # x = 800に最も近いモデル関数の解を取得

In [None]:
# 2章 アイリスデータセットの最近傍法，K近傍法による分類

from sklearn.datasets import load_iris
data = load_iris() # アイリスデータセットを取得

In [None]:
# 3章 bag-of-wordsによる文書のKMeansクラスタリング

from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
vectorizer = CountVectorizer(min_df=word_count_to_ignore, stop_words='english') # 単語の出現個数による文書のベクトル化クラス
X = vectorizer.fit_transform(["How to format my hard disk", " Hard disk format problems "]) # 文書のベクトル表現を取得(疎行列形式)
vectorizer.get_feature_names() # どの次元がどの単語に対応しているかを取得
vectorizer.transform(new_post) # vectorizerに学習されているモデルで，新しい文書をベクトル化

vectorizer.get_stop_words() # 一般的すぎる無駄な単語の一覧
analyzer = vectorizer.build_analyzer(); analyzer(post) # ドキュメントの前処理を行う
tfidf_vectorizer._tfidf.idf_[vectorizer.vocabulary_[term]] # tfidfのidfの部分を計算


import scipy as sp
sp.linalg.norm(array) # ユークリッド距離の計算

import sys
sys.maxsize # 最大値

import nltk.stem
nltk.download('stopwords', download_dir="./data/") # nltkの処理に必要なデータのダウンロード
nltk.data.path.append("./data") # downloadで取得したデータのパスをnltkに教える
stemmer = nltk.stem.SnowballStemmer('english') # ステミング(語幹を取得する)ためのクラス
stemmer.stem(word) # ステミングを行う

from scipy.stats import norm
x = norm(loc=0.3, scale=.15).rvs(20) # NORMal distributionからRandom VariableS 20個を取得

from sklearn.cluster import KMeans
km = KMeans(init='random', n_clusters=3, verbose=1, n_init=1, max_iter=1, random_state=seed_to_fix) # KMeans法のインスタンス
km.fit(x, y) # クラスタリングを行う
km.predict(x_for_prediction, y_for_prediction) # 与えられたデータがどのクラスタに属するかを取得

from sklearn.datasets import fetch_20newsgroups
data = fetch_20newsgroups(data_home=data_home, categories=categories) # 20newsデータを取得

In [None]:
# 4章 トピックモデルによる文書分類

from gensim import corpora, models, similarities
corpus = corpora.BleiCorpus('./data/ch04/ap/ap.dat', './data/ch04/ap/vocab.txt') # テキストデータからBleiのLDA-C形式によるコーパスを生成
corpora.textcorpus.TextCorpus # gensimで使うコーパスクラス
corpus.get_texts() # コーパスのテキストを取得
corpus.dictionary # コーパスのid2word
model = models.ldamodel.LdaModel(corpus, num_topics=100, id2word=corpus.id2word, alpha=control_tp_num_for_doc) # コーパスからLDAモデルを取得
model.id2word[topic_id] # トピックに対応する単語を取得

id2word = gensim.corpora.Dictionary.load_from_text('wiki_en_output_wordids.txt')
mm = gensim.corpora.MmCorpus('wiki_en_output_tfidf.mm') # 疎な行列のフォーマットにMatrix Marketというものがある．  
model.save('wiki.lda.pkl') # 時間がかかる作業は結果を保存しておく
model = gensim.models.ldamodel.LdaModel.load('wiki_lda.pkl') # ロードはこう
model.show_topic(topic_id, 64) # 与えられたドキュメントに強く関連するトピック64個に対応する単語

hdp = models.hdpmodel.HdpModel(mm, id2word) # トピックの数を自動で設定する階層ディリクレ過程(Hierarchical Dirichlet Process) のクラス

import wordcloud # というモジュールがある

from collections import defaultdict
defaultdict(int) # 辞書に入っていないキーにアクセスされたときのデフォルト値を返す関数を設定できる辞書． この場合はintの返り値0になる

from scipy.spatial import distance
distances = distance.pdist(data_points) # 全てのドキュメントの組み合わせの距離を求める．pairwise distances list. 自分自身との距離はない
distances = distance.squareform(distances) # 距離のリストを2次元の距離行列に変換する．対各成分はこのとき0なので必要なら後から大きな値にする

import logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO) # ログの出力設定
logging.info("message") # ログを出力

In [None]:
# 5章 ロジスティック回帰の結果をKFold＋PR曲線でテスト

from sklearn import neighbors
knn = neighbors.KNeighborsClassifier(n_neighbors=2) # K近傍法を行うためのクラス
knn.fit(train_data, train_label) # 学習
knn.predict([[1.5]]) # 予測
knn.predict_proba([[1.5]]) # 結果に対する確率
knn.score(X_test, Y_test) # 予測結果とラベルが同じである確率を取得

from sklearn.model_selection import KFold
cv = KFold(n_splits=10) # K分割交差検定用のクラス
for train, test in cv.split(X): ... # のようにして使う

from sklearn.linear_model import LogisticRegression
clf = LogisticRegression(solver='lbfgs') # ロジスティック回帰を行うクラス．fit, predict等のインタフェースはneighborsと同じ．
clf.intercept_ # ロジスティック回帰のバイアスの部分を取得
clf.coef_ # ロジスティック回帰の係数を取得

from sklearn.metrics import precision_recall_curve, auc, classification_report
precision, recall, thresholds = precision_recall_curve(y_test, clf.predict(X_test)) # PR曲線のthresholdごとのプロットデータを取得
auc(recall, precision) # PRCurveの線下面積を取得
classification_report(y_test, clf.predit_proba[:, 1] > 0.63, target_names=['not accepted', 'accepted']) # 適合率と再現率の値の確認

In [None]:
# 6章 ナイーブベイズによる文書分類とパラメータ最適化

from sklearn.naive_bayes import GaussianNB(身長体重などの正規分布を仮定), MultinomialNB, BernoulliNB(単語が出現した/しないの2値を仮定)
from sklearn.pipeline import Pipeline

clf = MultinomialNB() # TF-IDFと相性が良い，カウントベースのナイーブベイズモデル
pipeline = Pipeline([ ('vect', TfidfVectorizer()), ('clf', clf)]) # データを入れると，まずTF-IDFに変換してから学習を行うパイプラインを作成
# ↑ここでパイプラインに名前がついているのは，パラメータ探索を自動で行うGridSearchで使えるから．
pipeline.steps # パイプラインの内容を取得

from sklearn.model_selection import ShuffleSplit
rs = ShuffleSplit(n_splits=10, test_size=0.3, random_state=0) # KFoldとは違ってランダムにデータを分割する交差検定クラス．使い方は同じ．

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import f1_score, make_scorer

# パイプライン名__引数名=[探索する値]
param_grid = dict(
    vect__ngram_range=[(1, 1), (1, 2), (1, 3)], 
    vect__min_df=[1, 2],
    ...
    clf__alpha=[0, 0.01, 0.05, 0.1, 0.5, 1],
)
# Pipelineで名付けたvect, clfに対して，param_gridで指定したパラメータを使ってグリッドサーチする．
scorer = make_scorer(f1_score) # f値によるスコア計算器
grid_search = GridSearchCV(pipeline, param_grid=param_grid, cv = rs, scoring=scorer, verbose=10) # verboseの値に応じて経過出力
grid_search.fit(X, Y) # パラメータ探索開始
grid_search.best_estimator_ # 最適パラメータを取得

import nltk
token = nltk.word_tokenize("This is a book.") # 単語分割, トークン化(要punkt)
nltk.pos_tag(token) # トークンの文章構造からタグをつける．(要averaged_perceptron_tagger)

In [None]:
# 7章 ペナルティ項を持つ線形回帰モデルによる数値予測

from sklearn.datasets import load_boston
boston = load_boston() # ボストンの物件価格を予想するデータセット
boston.DESCR # データの説明
boston.feature_names # 特徴量の名前一覧

(slope, bias), error, rank, singular_value = np.linalg.lstsq(x, y, rcond=None) # 最小二乗法, rcondはワーニング対策

from sklearn.linear_model import LinearRegression, ElasticNet, Lasso, Ridge, ElasticNetCV, LassoCV, RidgeCV
lr = LinearRegression(fit_intercept=True) # 線形回帰モデル．fit, predictを持つ．fit_intercept: バイアス項を追加
en = ElasticNet(fit_intercept=True, alpha=0.5)  # ペナルティ項を持つElastic Netによる線形回帰モデル．alphaはペナルティ項の係数．あとl1_ratio
met = ElasticNetCV(alphas=[.125, .25, .5, 1., 2., 4.]) # CVによる最適パラメータ探索つきElasticNet

from sklearn.datasets import load_svmlight_file
data, target = load_svmlight_file('./data/E2006.train') # SVM関連のツール用フォーマットのロード

from scipy import sparse # 2次元スパース行列のためのパッケージ
reviews = sparse.csc_matrix((values, ij.T)).astype(float) # Compressed Sparse Column matrix
reviews.todense() # 疎行列形式から通常の行列に戻す
reviews.toarray() # 疎行列形式から通常の配列に戻す

In [None]:
# 8章 回帰の改良，バスケット分析など，手実装が多かったのであまり新しいライブラリの関数は出てこない
np.corrcoef(a, b) # aとbの相関係数．a, bが2次元なら相関係数のリストを返してくれる．

from itertools import chain
chain(*dataset) # 複数のイテレータを連続して一つにまとめたイテレータにする．

import pymining # 先進的なデータマイニングアルゴリズムのパッケージ

In [None]:
# 9章 FFT，MFCCを使った音楽分類と混合行列によるテスト結果の可視化

from scipy.io import wavfile
sample_rate, X = wavfile.read(wave_filename) # WAV形式ファイルのサンプリングレートと波形データを取得
plt.specgram(X, Fs=sample_rate, xextent=(0, len(X) // sample_rate)) # matplotlibでスペクトル表示

import scipy as sp
sp.fft(wave) # 高速フーリエ変換．np.fft.fftでもできる．

from sklearn.metrics import confusion_matrix
from matplotlib import pylab
cm = confusion_matrix(y_test, y_pred) # どのデータがどこに分類されたのかを可視化する混合行列を作成
pylab.matshow(cm, fignum=False, cmap="Blues") # 混合行列を表示

from sklearn.metrics import roc_curve
fpr, tpr, roc_thresholds = roc_curve(test, pred) # PR曲線のthresholdごとのプロットデータを取得

from librosa.feature import mfcc
mfccs = mfcc(np.array(X, dtype=float), sr=sr) # メル周波数ケプストラム係数特徴量を取得．floatのnparrayである必要がある

In [None]:
# 10章 画像処理と画像の特徴量

import mahotas as mh
image = mh.imread('./sample.jpg') # 画像データをnumpy配列として取得
plt.imshow(image) # 画像データの出力．as_grey引数でグレースケールにするかを指定
thresh = mh.thresholding.otsu(gray_image) # 大津の二値化による閾値の取得
thresh = mh.thresholding.rc(gray_image) # Ribler-Calvard手法による二値化閾値の取得
im8 = mh.gaussian_filter(gray_image, 8) # ガウシアンフィルタをかける．8はフィルタのサイズ(フィルタの標準偏差)で，大きいほどぼやける
image = mh.stretch(image) # 最大255, 最小0の画像に変換する

mh.features.haralick(image) # Haralickテクスチャ特徴量を取得．上下左右の4方向の特徴量が返ってくるが，これらを平均してもよい．
sobel_filtered = mh.sobel(image, just_filter=True) # Sobelフィルタによるエッジ検出

from mahotas.features import surf
surf_descriptors = surf.surf(grey_sample, descriptor_only=True) # SURFによる記述子の取得．onlyで特徴量の場所，サイズ，などを受け取らない
dense_descriptors = surf.dense(grey_sample, spacing=16) # 16ピクセル間隔のグリッド上の点における記述子, 特徴量の場所などは固定なので出力されない
# この記述子をkmeansでクラスタリングし，各クラスタにいくつ属するかを特徴量とする

Y, X = np.mgrid[:h, :w] # (h, w)の2次元配列を2つ生成，Y: 行に同じ数, X: 列に同じ数， となっており，(X, Y)が組み合わせになっている．    

from sklearn.model_selection import cross_val_score 
cross_val_score(LogisticRegression(), features, labels, cv=5).mean() # 交差検定でのスコアリストの平均を取得

In [None]:
# 11章 次元削減，RFE, PCA，LDA，MDS

from scipy.stats import pearsonr, entropy
pearsonr([1,2,3], [1,2,3.1]) # 相関係数とP値を取得．P値はその相関係数が偶然発生したものである可能性，すなわち信頼できなさ．
entropy([0.5, 0.5], base=2) # 確率分布の自己情報量，エントロピーを取得．baseのデフォルトは自然対数

from sklearn.feature_selection import RFE
from sklearn.datasets import make_classification
X, y = make_classification(n_samples=100, n_features=10, n_informative=3, random_state=0) # 人口データセットの作成
selector = RFE(clf, n_features_to_select=n_features_to_select) # ラッパー法であるRFEによる次元削減を行うクラス
selector = selector.fit(X, y) # 与えられたモデルを訓練
selector.support_ # n_features_to_selectで指定された数だけ特徴量を選ばれている．選ばれているかどうかのリストを取得
selector.ranking_ # 特徴量役に立つランキングを取得

from sklearn import linear_model, decomposition, datasets
pca = decomposition.PCA(n_components=1) # 主成分分析(PCA)を行うためのクラス．次元削減後の次元を指定．
Xtrans = pca.fit_transform(X) # 変換後の特徴空間に射影, fitメソッドとtransformメソッドの組み合わせ．
pca.explained_variance_ratio_ # 変換後，どれだけの分散が維持されているか(次元が減ると一般的に分散は減るみたい)

from sklearn.discriminant_analysis import LinearDiscriminantAnalysis as LDA
lda_inst = LDA(n_components=1) # 線形判別分析(LDA)を行うためのクラス．クラス外の分散を最大化，クラス内の分散を最小化する．
Xtrans = lda_inst.fit_transform(X, labels) # フィッティングにクラスラベルを利用する，教師ありの手法

from sklearn import manifold
mds = manifold.MDS(n_components=3) # 多次元尺度構成法(MDS)を行うためのクラス．次元削減後の相対距離を保つようにする．
Xtrans3 = mds.fit_transform(X) # 2次元や3次元に変換して，可視化に使える．

In [None]:
# 12章 jugとAWS

from jug import Task, TaskGenerator
t1 = Task(lambda x: x * 2, 3) # 計算データのキャッシュを取るタスクとして関数を実行

@TaskGenerator # 次の関数はいつでもタスクとして実行
def double(x):
    sleep(4)
    return 2 * x

# 以上のようにして学習を行うスクリプトをjugfile.pyで作成し，jug executeを実行するとスクリプトが実行され，キャッシュを取りながら処理を行う

# starcluster コンフィグファイルの作成，sshキーを作成，AWSのサーバをひとまとめにしたクラスタの作成，削除，マスターノードにログインなど

# 使用したデータセットのまとめ

- 1章
    - web_traffic.tsv: ウェブトラフィックのデータ
- 2章
    - アイリスデータセット: アヤメの形状から品種を推定するデータ．sklean.datasets.load_iris
- 3章
    - 20newsgroup: 様々な分野のニュース記事: sklearnのデータセット取得機能で取得
- 4章
    - Associated Pressの標準的なニュースデータセット: wget http://www.cs.columbia.edu/~blei/lda-c/ap.tgz
    - Wikipediaのダンプデータ: wget http://dumps.wikimedia.org/enwiki/latest/enwiki-latest-pages-articles.xml.bz2 --no-check-certificate
- 5章
    - stackoverflowのジャンルごとの質問と回答集: https://archive.org/details/stackexchange
- 6章
    - ツイート with 感情データ: https://raw.githubusercontent.com/zfz/twitter_corpus/master/full-corpus.csv
- 7章
    - ボストンの物件の価格を予想するデータ．sklearn.datasets.load_boston
    - 10-K reports: アメリカの公式決算報告書．株価予測: http://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/regression/E2006.train.bz2
    - GroupLens: ユーザと映画のスコアデータ．: wget http://www.grouplens.org/system/files/ml-100k.zip --no-check-certificate
- 8章
    - ベルギーのスーパーマーケットの買い物データ．商品は匿名．: wget http://fimi.ua.ac.be/data/retail.dat.gz
- 9章
    - GTZAN: 短い100曲×10ジャンルの音楽データ．: wget http://opihi.cs.uvic.ca/sound/genres.tar.gz
- 10章
    - SimpleImageDataset: サポートページに置かれた画像データセット: https://github.com/luispedro/BuildingMachineLearningSystemsWithPython
    - 動物，車，交通機関，風景の画像データセット: wget http://vision.stanford.edu/Datasets/AnimTransDistr.rar