# 第2章 評価値行列

https://recsyslab.github.io/recsys-python/ja/chap02.html

## 準備

次のコードを書きなさい。

In [1]:
import pprint
import numpy as np
np.set_printoptions(precision=3)

# 評価値行列

次の行列$\boldsymbol{R}$は評価値行列である。

$$
\boldsymbol{R} = \left[
 \begin{array}{rrrrrr}
  ? & 4 & 3 & 1 & 2 & ? \\
  5 & 5 & 4 & ? & 3 & 3 \\
  4 & ? & 5 & 3 & 2 & ? \\
  ? & 3 & ? & 2 & 1 & 1 \\
  2 & 1 & 2 & 4 & ? & 3 \\
 \end{array}
\right]
$$

$\boldsymbol{R}$の$u$行目はユーザ$u \in U$を表し、$i$列目はアイテム$i \in I$を表す。ここで、$\boldsymbol{R}$におけるユーザ数は$\mid U \mid = 5$、アイテム数は$\mid I \mid = 6$となる。$\boldsymbol{R}$の$(u, i)$成分はユーザ$u$がアイテム$i$に与えた評価値$r_{u,i}$を表す。ただし、$?$は欠損値であることを表す。このとき、次の問いに答えなさい。


## 01 評価値行列の生成

評価値行列$\boldsymbol{R}$を`ndarray`として生成するコードを書きなさい。得られた`ndarray`を`R`とすること。

In [2]:
R = np.array([
  [np.nan, 4, 3, 1, 2, np.nan],
  [5, 5, 4, np.nan, 3, 3],
  [4, np.nan, 5, 3, 2, np.nan],
  [np.nan, 3, np.nan, 2, 1, 1],
  [2, 1, 2, 4, np.nan, 3]
])
print('R = \n{}'.format(R))

R = 
[[nan  4.  3.  1.  2. nan]
 [ 5.  5.  4. nan  3.  3.]
 [ 4. nan  5.  3.  2. nan]
 [nan  3. nan  2.  1.  1.]
 [ 2.  1.  2.  4. nan  3.]]


## 02 ユーザ集合

`R`の各行のインデックス`u`は各ユーザ$u$のユーザIDに対応する。`R`からユーザ集合$U$（ユーザIDを要素としたベクトル）を`ndarray`として生成するコードを書きなさい。得られた`ndarray`を`U`とすること。

In [3]:
U = np.arange(R.shape[0])

print('U = {}'.format(U))

U = [0 1 2 3 4]


## 03 アイテム集合

`R`の各列のインデックス`i`は各アイテム$i$のアイテムIDに対応する。`R`からアイテム集合$I$（アイテムIDを要素としたベクトル）を`ndarray`として生成するコードを書きなさい。得られた`ndarray`を`I`とすること。

In [4]:
I= np.arange(R.shape[1])

print('I = {}'.format(I))

I = [0 1 2 3 4 5]


## 04 ユーザ数

`U`からユーザ数$\mid U \mid$を取得するコードを書きなさい。

In [5]:
print('|U| = {}'.format(U.size))

|U| = 5


## 05 アイテム数

`I`からアイテム数$\mid I \mid$を取得するコードを書きなさい。

In [6]:
print('|I| = {}'.format(I.size))

|I| = 6


## 06 評価値

`R`からユーザ$u$のアイテム$i$に対する評価値$r_{u,i}$を取得するコードを書きなさい。

In [7]:
u = 0
i = 1
print('r{}{} = {}'.format(u, i, R[u, i]))

r01 = 4.0


# 評価値行列の疎性
評価値行列$\boldsymbol{R}$の疎性$\mathrm{sparsity}$は次式で求められる。

$$
\mathrm{sparsity} = 1 - \frac{\mid R \mid}{\mid U \mid \mid I \mid}
$$

ここで、$\mid R \mid$は評価値が与えられた成分の数、すなわち観測値数（欠損値でない要素数）を表す。このとき、次の問いに答えなさい。

## 07 評価値行列の全要素数

`R`の全要素数を取得するコードを書きなさい。ただし、欠損値も含む。

In [8]:
print('Rの全要素数 = {}'.format(R.size))

Rの全要素数 = 30


## 08 観測されているか否かの判定

`R`において、観測値の要素には`True`を、欠損値の要素には`False`を入れたブール値配列を生成するコードを書きなさい。

In [9]:
print('観測値 = \n{}'.format(~np.isnan(R)))

観測値 = 
[[False  True  True  True  True False]
 [ True  True  True False  True  True]
 [ True False  True  True  True False]
 [False  True False  True  True  True]
 [ True  True  True  True False  True]]


## 09 評価値行列の観測値数

`R`における観測値数$\mid R \mid$を取得するコードを書きなさい。

In [10]:
print('|R| = {}'.format(np.count_nonzero(~np.isnan(R))))

|R| = 22


## 10 評価値行列の疎性

評価値行列$\boldsymbol{R}$の疎性$\mathrm{sparsity}$を求めるコードを書きなさい。得られた値を`sparsity`とすること。

In [11]:
# sparsity = np.count_nonzero(np.isnan(R)) / R.size
sparsity = 1 - np.count_nonzero(~np.isnan(R)) / (I.size * U.size)

print('sparsity = {:.3f}'.format(sparsity))

sparsity = 0.267


# 評価済みアイテム集合

アイテム集合$I$のうちユーザ$u$が評価済みのアイテム集合を$I_{u} \subseteq I$、ユーザ$v$が評価済みのアイテム集合を$I_{v} \subseteq I$とすると、ユーザ$u$とユーザ$v$の共通の評価済みアイテム集合は$I_{u,v} = I_{u} \cap I_{v}$と表される。また、ユーザ集合$U$のうちアイテム$i$を評価済みのユーザ集合を$U_{i} \subseteq U$、アイテム$j$を評価済みのユーザ集合を$U_{j} \subseteq U$とすると、アイテム$i$とアイテム$j$の両方を評価済みのユーザ集合は$U_{i,j} = U_{i} \cap U_{j}$と表される。このとき、次の問いに答えなさい。


## 11 ユーザuが評価済みのアイテム集合

`I`からユーザ$u$が評価済みのアイテム集合$I_{u}$を`ndarray`として生成するコードを書きなさい。

In [12]:
u = 0
print('I{} = {}'.format(u, I[~np.isnan(R)[u,:]]))

I0 = [1 2 3 4]


## 12 各ユーザの評価済みアイテム集合

`I`から各ユーザの評価済みのアイテム集合を`ndarray`のリストとしてまとめて生成するコードを書きなさい。得られたリストを`Iu`とすること。

In [13]:
Iu = [I[~np.isnan(R)[u,:]] for u in U]
print('Iu = ')
pprint.pprint(Iu)

Iu = 
[array([1, 2, 3, 4]),
 array([0, 1, 2, 4, 5]),
 array([0, 2, 3, 4]),
 array([1, 3, 4, 5]),
 array([0, 1, 2, 3, 5])]


## 13 ユーザuとユーザvの共通の評価済みアイテム集合

`Iu`からユーザ$u$とユーザ$v$の共通の評価済みアイテム集合$I_{u,v}$を`ndarray`として生成するコードを書きなさい。得られた`ndarray`を`Iuv`とすること。

In [14]:
u = 0
v = 1
Iuv = np.intersect1d(Iu[u], Iu[v])
print('I{}{} = {}'.format(u, v, Iuv))

I01 = [1 2 4]


## 14 アイテムiを評価済みのユーザ集合

`U`からアイテム$i$を評価済みのユーザ集合$U_{i}$を`ndarray`として生成するコードを書きなさい。

In [15]:
i = 0
print('U{} = {}'.format(i, U[~np.isnan(R)[:, i]]))

U0 = [1 2 4]


In [16]:
i = 0
print('U{} = {}'.format(i, U))

U0 = [0 1 2 3 4]


## 15 各アイテムの評価済みユーザ集合
`U`から各アイテムの評価済みユーザ集合$U_{i}$を`ndarray`のリストとしてまとめて生成するコードを書きなさい。得られたリストを`Ui`とすること。

In [17]:
Ui = []
# for i in I:
#   Ui.append(U[~np.isnan(R)[:, i]])

Ui = [U[~np.isnan(R)[:, i]] for i in I]
print('Ui = ')
pprint.pprint(Ui)

Ui = 
[array([1, 2, 4]),
 array([0, 1, 3, 4]),
 array([0, 1, 2, 4]),
 array([0, 2, 3, 4]),
 array([0, 1, 2, 3]),
 array([1, 3, 4])]


## 16 アイテムiとアイテムjの両方を評価済みのユーザ集合

`Ui`からアイテム$i$とアイテム$j$の両方を評価済みのユーザ集合$U_{i,j}$を`ndarray`として生成するコードを書きなさい。得られた`ndarray`を`Uij`とすること。

In [18]:
i = 0
j = 4
Uij = np.intersect1d(Ui[i], Ui[j])
print('U{}{} = {}'.format(i, j, Uij))

U04 = [1 2]


# 平均中心化評価値行列

ユーザ$u$の平均評価値$\overline{r}_{u}$は次式で求められる。

$$
\overline{r}_{u} = \frac{\sum_{i \in I_{u}} r_{u,i}}{\mid I_{u} \mid}
$$

ユーザ$u$のアイテム$i$に対する評価値$r_{u,i}$からユーザ$u$の平均評価値$\overline{r}_{u}$を引いた評価値を平均中心化評価値$r_{u,i}^{'}$とよび、次式で表される。

$$
r_{u,i}^{'} = r_{u,i} - \overline{r}_{u}
$$

評価値行列$\boldsymbol{R}$の評価値$r_{u,i}$を平均中心化評価値$r_{u,i}^{'}$に置き換えた評価値行列を平均中心化評価値行列$\boldsymbol{R}^{'}$とよび、次式のようになる。

$$
\boldsymbol{R}^{'} = \left[
            \begin{array}{rrrrrr}
                     &  1.5  &  0.5 & -1.5  & -0.5  &       \\
                 1   &  1    &  0   &       & -1    & -1    \\
                 0.5 &       &  1.5 & -0.5  & -1.5  &       \\
                     &  1.25 &      &  0.25 & -0.75 & -0.75 \\
                -0.4 & -1.4  & -0.4 &  1.6  &       &  0.6
            \end{array}
        \right]
$$

このとき、次の問いに答えなさい。

## 17 評価値行列全体の平均評価値

`R`全体の平均評価値を求めるコードを書きなさい。ただし、欠損値は無視する。

In [19]:
print('R全体の平均評価値 = {:.3f}'.format(np.nanmean(R)))

R全体の平均評価値 = 2.864


## 18 各アイテムの平均評価値

`R`において各アイテムの平均評価値$\overline{r}_{i}$を`ndarray`としてまとめて求めるコードを書きなさい。ただし、欠損値は無視する。得られた`ndarray`を`ri_mean`とすること。

In [20]:
ri_mean = np.nanmean(R, axis=0)
print('ri_mean = {}'.format(ri_mean))

ri_mean = [3.667 3.25  3.5   2.5   2.    2.333]


## 19 各ユーザの平均評価値

`R`において各ユーザの平均評価値$\overline{r}_{u}$を`ndarray`としてまとめて求めるコードを書きなさい。ただし、欠損値は無視する。得られた`ndarray`を`ru_mean`とすること。

In [21]:
ru_mean = np.nanmean(R, axis=1)
print('ru_mean = {}'.format(ru_mean))

ru_mean = [2.5  4.   3.5  1.75 2.4 ]


## 20 評価値ベクトルの形状変換

`ru_mean`の形状を`(5, 1)`に変換するコードを書きなさい。

In [22]:
print('ru_mean = \n{}'.format(ru_mean.reshape(ru_mean.size, 1)))

ru_mean = 
[[2.5 ]
 [4.  ]
 [3.5 ]
 [1.75]
 [2.4 ]]


## 21 平均中心化評価値行列

評価値行列$\boldsymbol{R}$の平均中心化評価値行列$\boldsymbol{R}^{'}$を`ndarray`として生成するコードを書きなさい。得られた`ndarray`を`R2`とすること。

In [23]:
R2 = R - ru_mean.reshape(ru_mean.size, 1)
print('R\' = \n{}'.format(R2))

R' = 
[[  nan  1.5   0.5  -1.5  -0.5    nan]
 [ 1.    1.    0.     nan -1.   -1.  ]
 [ 0.5    nan  1.5  -0.5  -1.5    nan]
 [  nan  1.25   nan  0.25 -0.75 -0.75]
 [-0.4  -1.4  -0.4   1.6    nan  0.6 ]]
