02 ビンカウンティング
==================

* `ビンカウンティング`：古典的だが、広告のクリック率の予測からハードウェアにおける分岐予測まで、多くのアプリケーションで利用されている手法

* この手法は、モデリングや最適化ではなく、特徴量エンジニアリングのため、研究論文はない

* `ビンカウンティング`は、カテゴリ値をエンコードして特徴量として使用する代わりに、カテゴリごとに何らの値を集計した統計量を用いる

    * カテゴリごとにターゲットの値を集計して算出した`条件付き確率`は、そのような統計量の一例
    
    * `ナイーブベイズ分類器`では、特徴量が互いに独立と考えてクラスの条件付き確率を求めたので、ピンときやすい

| ユーザー | クリックした数 | クリックしなかった数 | クリック率 |
| -------- | -------------- | -------------------- | ---------- |
| アリス   | 5              | 120                  | 0.0400     |
| ボブ     | 20             | 230                  | 0.0800     |
| ...      | ...            | ...                  | ...        | 
| ジョー   | 2              | 3                    | 0.0400     |


| クエリハッシュと広告ドメイン | クリックした数 | クリックしなかった数 | クリック率 |
| ---------------------------- | -------------- | -------------------- | ---------- |
| 0x598fd4fe, foo.com          | 5,000          | 30,000               | 0.167      |
| 0x50fa3cc0, bar.org          | 100            | 900                  | 0.100      |
| ...                          | ...            | ...                  | ...        |
| 0x437a45e1, qux.net          | 6              | 18                   | 0.250      |

* ビンカウンティングは、統計量を計算するための履歴データがあることを前提としている

    * 上の表には、全カテゴリの集計値が表示されている
    
* この表におけるビンカウンディングを考える

    * 例)広告をクリックした回数とクリックしていない回数に基づいて、ユーザーの**クリック率**(広告をクリックする確率）を計算できる
    
        * それをモデルの特徴量として使用する
        
        * 同様に、「クエリー広告ドメイン」の組み合わせに対するクリック数
        
        * 「ハッシュ化されたクエリ - 広告ドメイン」の組み合わせ(0x437a45e1, qux.net)の組み合わせに対するクリック率も計算して利用できる

* 1万人のユーザがいるとする

* One-Hotエンコーディングでユーザー名をエンコードした場合、データ点に対応するユーザの要素が1で、残りが0となるような長さ10000のスパースなベクトルが生成される
    
    * そして各ユーザに対応する列が10000個生成される
    
* 一方、ビンカウンティングは、その10000列からクリック率を算出し、0以上1以下の実数値をとる1列の特徴量にエンコードする

* ビンカウンティングは、クリック率の代わりに、生のカウント(クリックした数とクリックしなかった数)や対数オッズ比や他の関連する確率も利用できる

### ビンカウンティングのためのオッズ比と対数オッズ比

* `オッズ比`：2つの二値変数の間で定義される

    * これは、「$X$が真である時に$Y$が真になる可能性はどれくらいあるか？」という問題に基づき、二値変数間の関係の強さを測る
    
* 例)「一般の人と比べてアリスが広告をクリックする確率はどれくらいか？」
    
    * $X$：「ユーザがアリスかどうか」
    
    * $Y$：「広告をクリックするかどうか」
    
* `オッズ比`の計算では、$X$と$Y$の全てを組み合わせを利用する

| 条件       | クリック数 | クリックしなかった数 | 合計  |
| ---------- | ---------- | -------------------- | ----- |
| アリス     | 5          | 120                  | 125   |
| アリス以外 | 995        | 18880                | 19875 |
| 合計       | 1000       | 19000                | 20000 |

* 入力変数$X$とターゲット変数$Y$が与えられると、`オッズ比`は以下のように定義される

\begin{eqnarray}
オッズ比 = \frac{\frac{P(Y=1|X=1)}{P(Y=0|X=1)}}{\frac{P(Y=1|X=0)}{P(Y=0|X=0)}}
\end{eqnarray}

* この例では、`オッズ比`は以下の比率として解釈される

    * 「アリスに広告が表示された時、クリックしない確率に対してクリックする確率がどれほど高いのか」と
    
    * 「アリス以外のユーザに広告が表示された時、クリックしない確率に対してクリックする確率がどれほど高いのか」

* 具体的に計算すると、以下の通りになる

\begin{eqnarray}
オッズ比(user, ad click) = \frac{\frac{5/125}{120/125}}{\frac{995/19,875}{18,880/19,875}}
\end{eqnarray}

* より簡単に確認する方法として、分子だけを見る方法がある

    * つまり、単一のユーザ(アリス)が広告をクリックする確率とクリックしない確率を調べ、比率を計算する
    
    * この方法は、多くのカテゴリを持つカテゴリ変数に適している
    
\begin{eqnarray}
オッズ比(Alice, ad click) = \frac{5/125}{120/125}
\end{eqnarray}

* `オッズ比`は極端に大きくなったり小さくなったりする(広告を全くクリックしないユーザ、極端にクリックするユーザ)

    * その場合には、次のように対数変換すると良い
    
    * 値の範囲を狭められる上に、除算が減算に変わるので計算コストが低くなる
    
\begin{eqnarray}
オッズ比(Alice, ad click) = \log( \frac{5}{125}) -  \log( \frac{120}{125}) = -3.178
\end{eqnarray}

* まとめると、`ビンカウンティング`はカテゴリ変数をカテゴリに関する統計量にエンコードする方法

* この方法は、One-Hotエンコーディングによって生成された大規模でスパースな二値表現を、非常に密で小さな実数値に変えることができる

### ビンカウンティングの実装

* ビンカウンティングの実装では、カテゴリとそのカテゴリに関連する統計量の組み合わせを計算しておき、保存しておく必要がある

    * 統計量の中には、保存しないで必要になった時にその場で生のカウントから算出すれば良い統計量もある
    
    * 保存するには、$O(k)$の容量が必要になる($k$はカテゴリ数)

* [AvazuのKaggleのコンペ](https://www.kaggle.com/c/avazu-ctr-prediction)のデータセットを用いて、ビンカウンディングを計算する

    * 以下を含む24の変数

        * 広告のID
        
        * クリックの有無
            
        * 広告が表示されたサイトのドメイン
    
        * デバイスID
    
    * 40,428,967件の観測データ、2,686,408のユニークなデバイス

* ここでは、ビンカウンティングによって非常に大きな特徴量空間をどれだけ削減できるかを示す

> 2019/05/04　Kaggleからうまくデータをダウンロードできなかったのでコードの実行はパス

In [None]:
import pandas as pd
# train_subsetを読み込み(サンプルコードの対象のデータ件数が、8208件です。)
df = pd.read_csv('data/avazu/train_subset.csv')

df.shape

In [None]:
# device_idが何種類あるか計算
len(df['device_id'].unique())

In [None]:
def click_counting(x, bin_column):
    clicks = pd.Series(x[x['click'] > 0][bin_column].value_counts(), name='clicks')
    no_clicks = pd.Series(x[x['click'] < 1][bin_column].value_counts(), name='no_clicks')

    counts = pd.DataFrame([clicks,no_clicks]).T.fillna('0')
    counts['total_clicks'] = counts['clicks'].astype('int64') + counts['no_clicks'].astype('int64')
    return counts

def bin_counting(counts):
    counts['N+'] = counts['clicks'].astype('int64').divide(counts['total_clicks'].astype('int64'))
    counts['N-'] = counts['no_clicks'].astype('int64').divide(counts['total_clicks'].astype('int64'))
    counts['log_N+'] = counts['N+'].divide(counts['N-'])
    # Bin Countingのプロパティを返すだけの場合、ここでフィルタリングを実行
    bin_counts = counts.filter(items= ['N+', 'N-', 'log_N+'])
    return counts, bin_counts

# device_idを対象としたビンカウンティング
bin_column = 'device_id'
device_clicks = click_counting(df.filter(items=[bin_column, 'click']), bin_column)
device_all, device_bin_counts = bin_counting(device_clicks)

device_all

In [None]:
device_bin_counts

In [None]:
# 全てのデバイスに対してビンカウンディングが行われたか確認
len(device_bin_counts)

In [None]:
device_all.sort_values(by = 'total_clicks', ascending=False).head(4)

## 1. レアなカテゴリをどのように扱うか？

* 滅多に利用しない単語のような、レアなカテゴリに対しては、特別な取り扱いが必要となる

    * 例)1年に1回しかログインしないユーザに対して考える
    
    * そのユーザの広告のクリック率を測定するためのデータは当然ほとんどない
    
    * また、レアなカテゴリは集計表を無駄に大きくする

### バックオフ

* 対処方法の1つは、`バックオフ`と呼ばれる簡単な方法

* 具体的には、全てのレアなカテゴリを1つにまとめて`バックオフビン`という特別なビンにする

![バックオフビンによるカテゴリの集約](./images/バックオフビンによるカテゴリの集約.png)

* カウントが特定の閾値より大きい場合、各カテゴリの統計量を使用する

* それ以外の場合は、バックオフビンの統計量を使用する
    
    * つまり、レアな各カテゴリの統計量の代わりに、レアなカテゴリを1つのカテゴリとしてまとめて計算した統計量を利用する
    
    * `バックオフ`を使用する場合、バックオフビンの利用有無のフラグも合わせて確認すると便利

### 最小カウントスケッチ

* `最小カウントスケッチ`：カテゴリ数$k$よりはるかに小さい出力範囲$m$を持つハッシュ関数を用いて、全てのカテゴリをハッシュ値に基づいてマッピングする

    * ただし、ハッシュ関数は1種類ではなく$d$種類あり、その種類ごとにハッシュ値を集計する
    
    * そのため、$d \times m$個のビンを使用する
    
* 値を取り出す時は、カテゴリ値に$d$種類のハッシュ関数を適用して、それぞれのハッシュ値に紐づいているビンから値を取り出す
    
    * そして、取り出した$d$個の値の最小値を正式な統計量とする
    
* 多種類のハッシュ関数を使うことで、衝突の確率を下げられる

* ハッシュ関数の種類数とハッシュテーブルのサイズの積である$d \times m$がカテゴリ数$k$よりも小さくできて、衝突の確率も低いままに抑えられる

    * また、ハッシュ関数の出力範囲$m$を小さくすることでレアなカテゴリを自然に他のカテゴリとまとめられる

* 以下の図では、最小カウントスケッチが値を更新する時の流れを説明している

![最小カウントスケッチ](./images/最小カウントスケッチ.png)

* 右のマスはビンを表しており、行方向がハッシュ関数の種類($d=4$)、列方向がハッシュの出力範囲($m=10$)を表している

* アイテム$i_t$のカウントを$c_t$だけ増やす場合に、$i_t$のカテゴリ値にハッシュ関数$h_1, \cdot \cdot \cdot, h_d$を適用する

    * それぞれのハッシュ値に紐づいているビンを把握し、各ビンに$c_t$を加えている

## 2. データリークへの対策

* `ビンカウンティング`は統計量を生成するための履歴データが必要なため、データ収集を持つ必要があり、学習パイプラインにわずかな遅延が発生する

    * また、データ収集を待つ必要があり、学習パイプラインにわずかな遅延が発生する
    
    * また、データの分布が変化すると、統計量を更新する必要がある
    
    * データの更新が頻繁なほど、統計量を再計算する頻度が高くなる
    
        * これは、ターゲティング広告のようなアプリケーションでは特に重要となる
        
        * ユーザの好みや人気のあるクエリが迅速に変化するにも関わらず、現状の分布への適応が不十分な場合、広告プラットフォームにとって大きな損失が生じる

* 一つの方法として、ビンカウンティングの統計量の計算に使用するデータとモデルの学習に利用するデータを厳密に分類する方法がある

    * $t_0$から$t$までの履歴データをビンカウンティングの統計量の計算に利用
    
    * $t$から$t_n$までの履歴データをモデルの学習に利用(カテゴリ値は計算した統計量に変換)
    
    * $t_n$以降の将来のデータをテストに利用する

* もう一つの方法として、差分プライバシーを利用する方法がある

    * 統計量に特別な偏りがあり、その偏りに予測したい答えが含まれていると`リーク`(本来与えることができない予測精度を極端に高める情報がモデルに含まれていること)が発生する
    
* 任意のデータ点の有無によって統計量の分布がほぼ変わらない場合には、リークの影響はほとんどない
    
    * そのような条件を満たす統計量を、`リークの影響を受けない`統計量と呼ぶ
    
* 実際にデータ点からのリークを防ぐには、ラプラス分布$Laplace(0,1)$に従った小さなランダムノイズを統計量に加えれば十分

    * この方法は、leave-one-outと組み合わせることもできる

### 3. 発散するカウントへの対応

* 継続的に履歴データが与えられる場合、生のカウントは無制限に増加する

* カウントの無制限な増加は、モデルに悪影響を与える可能性がある

    * モデルは学習時に入力されたデータの範囲しか正確に扱えないため
    
    * 例)入力値$x$が0から5の範囲のデータによって学習させた場合、学習済みの決定木の決定において大きな影響を与える

* 入力のカウントが増加して行くならば、モデルの再学習を行い、新たな入力値の範囲に対応する必要がある

    * もしカウントの増加が緩やかであれば、入力値の広がり方も緩やかになるので、必要となるモデルの再学習の頻度は少ない
    
    * しかし、カウントの増加が早い場合には、モデルの再学習が頻繁に必要になる

* そのため、既知の範囲に抑えるためのカウントの正規化が有効

* 正規化の1つの方法として、確率のような値の範囲が固定である指標に変換する方法がある

    * 例)推定されたクリック率は0以上1以下の値を取り、値の範囲が決まっている
    
* 他の正規化の方法としては、対数変換を行う方法がある

    * 対数変換で得られる値は決まった範囲に限られていないが、カウントが大きな値になるほど、対数変換後の値の増加はより緩やかになる

* いずれの正規化の方法も、入力した分布のずれを防ぐものではない

    * 例)昨年と今年のブームの違いなど
    
* 入力データの分布の根本的な変化に対応するためには、モデルの再学習を行う必要があるか、パイプライン全体をオンライン学習環境に移行する必要がある

| 版   | 年/月/日   |
| ---- | ---------- |
| 初版 | 2019/05/04 |