# 非負値行列分解（NMF）
2020年10月15日

### 前提条件
このポストを理解するためには、以下の内容を事前に理解しておくことを推奨します。

- 主成分分析（PCA）
- 特異値分解（SVD）
- 独立成分分析（ICA）
- 勾配降下法（Gradient Descent）

※独立成分分析は難解な内容ですが、すべてを理解する必要はありません。主成分分析と勾配降下法については理解しておくことをお勧めします。

### NMFの定義
非負値行列分解（Non-negative Matrix Factorization, NMF）は、負の値を含まない行列 $ X $ を、負の値を含まない行列 $ W $ と $ H $ の積に分解するアルゴリズムです。

数式で表すと、次のようになります。

$$
X = WH
\tag{1}
$$

### WとHの意味
まず、分解しようとする行列 $ X $ がどのようなものであるかを考えてみましょう。行列 $ X $ はデータセットと考えるとよいでしょう。例えば、行列 $ X $ が $ m \times n $ 行列であるとしたら、ここで $ m $ はデータサンプルの数（観測の数）、$ n $ は各データサンプルベクトルの次元（データの次元）を表します。

#### 図1: データ行列 $ X $ の形

一方、行列 $ W $ と $ H $ の次元は、ユーザーの必要に応じて決定できます。ただし、$ W $ の行の数と $ H $ の列の数はそれぞれ $ m $ と $ n $ でなければなりません。

例えば、$ p $ 個の特徴量を持つ元のデータセット $ X $ を分解したい場合、$ W $ と $ H $ の次元は次のように決定されます。

$$
W \in R^{m \times p}, \quad H \in R^{p \times n}
\tag{2}, \tag{3}
$$

このように分解すると、行列 $ H $ の各行は1つの特徴量になり、行列 $ W $ の各行はそれぞれの特徴量をどの程度組み合わせて使うかについての重みを示します。

#### 図2: NMFを利用して分解された行列 $ W $ と $ H $ の形と各行の意味

### なぜNMFを使用するのが有用なのか？
#### 非負値データは非負値の特徴で説明するのが自然
NMFの有用性の1つは、抽出される特徴がすべて非負値であることです。例えば、画像データはすべてピクセルの強度で構成されており、この値は負にはなりません。このような非負値のデータを非負値の特徴で説明するのは自然です。

#### 特徴量の独立性を捉えやすい
さらに、NMFはデータ構造をよりよく反映できる点でも有用です。PCAやSVDでは特徴量間の直交性が保証されますが、これは必ずしもデータの構造に適合するとは限りません。

#### 図3: PCAとNMFの幾何学的な解釈

### 必要な予備知識
NMFを理解するためには、以下のテクニックを知っておくと役立ちます。

- **トレース演算子（Trace）**: 行列の対角成分だけを必要とする場合に使われる演算子です。
- **フロベニウスノルム（Frobenius Norm）**: 行列の大きさを測る基準です。

### NMFの更新ルール
NMFでは次のような更新ルールが使用されます。

$$
H := H \circ \frac{W^T X}{W^T W H}, \quad W := W \circ \frac{X H^T}{W H H^T}
\tag{20}, \tag{21}
$$

ここで「$ \circ $」は要素ごとの積（element-wise product）を示しています。

### NMFの適用結果
以下は、Yale Extended Face Dataを用いてNMFとPCAで特徴抽出を試みた結果です。

#### 図5: NMFで得られた25個の特徴セット
#### 図6: PCAで得られた25個の特徴セット

NMFで抽出された特徴は、顔の形状や光の方向など、データセットが持つ要素をよく反映しています。
