<a href="https://colab.research.google.com/github/yaminabeworks/qiitakiji/blob/main/numpyknock_recsys01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# recsys-python

推薦システムを作ることで、機械学習を学ぶ。

https://recsyslab.github.io/recsys-python/

## 第1章 評価履歴

In [1]:
import numpy as np

### 01 評価履歴の生成

1. `np.nan`を使う。
2. `np.array`を使う。

In [2]:
Du_list = [[5, 3, 1],
           [6, 2, 1],
           [4, 1, 1],
           [8, 5, -1],
           [2, 4, -1],
           [3, 6, -1],
           [7, 6, -1],
           [4, 2, np.nan],
           [5, 1, np.nan],
           [8, 6, np.nan],
           [3, 4, np.nan],
           [4, 7, np.nan],
           [4, 4, np.nan]]

Du = np.array(Du_list)

In [3]:
print(f'Du = \n{Du}')

Du = 
[[ 5.  3.  1.]
 [ 6.  2.  1.]
 [ 4.  1.  1.]
 [ 8.  5. -1.]
 [ 2.  4. -1.]
 [ 3.  6. -1.]
 [ 7.  6. -1.]
 [ 4.  2. nan]
 [ 5.  1. nan]
 [ 8.  6. nan]
 [ 3.  4. nan]
 [ 4.  7. nan]
 [ 4.  4. nan]]


### 02 評価履歴の形状

- `np.shape`を使う。

In [4]:
print(f'Duの形状 = {Du.shape}')

Duの形状 = (13, 3)


### 03 評価履歴の行数

- `np.shape`を使う。

In [5]:
print(f'Duの行数 = {Du.shape[0]}')

Duの行数 = 13


### 04 評価履歴の列数

- `np.shape`を使う。

In [6]:
print(f'Duの列数 = {Du.shape[1]}')

Duの列数 = 3


### 05 評価履歴の全要素数

- `np.size`を使う。
  - おそらく、`np.shape[0]*np.shape[1]`でもよい。

In [7]:
print(f'Duの全要素数 = {Du.size}')

Duの全要素数 = 39


## アイテム

### 06 アイテム集合

アイテムは、インデックスと読み替えてもこの場合差し支えなさそう。

In [8]:
I = np.arange(Du.shape[0])
print(f'I = {I}')

I = [ 0  1  2  3  4  5  6  7  8  9 10 11 12]


### 07 アイテムの特徴ベクトルの集合

numpy行列中にある評価値以外を取り出す。

In [9]:
x = Du[:, :-1]
print(f'x = \n{x}')

x = 
[[5. 3.]
 [6. 2.]
 [4. 1.]
 [8. 5.]
 [2. 4.]
 [3. 6.]
 [7. 6.]
 [4. 2.]
 [5. 1.]
 [8. 6.]
 [3. 4.]
 [4. 7.]
 [4. 4.]]


### 08 アイテム$i$の特徴ベクトル

In [10]:
i = 0
print(f'x{i} = {x[i]}')

x0 = [5. 3.]


### 09 評価値集合

In [11]:
ru = Du[:, -1]
print(f'ru = {ru}')

ru = [ 1.  1.  1. -1. -1. -1. -1. nan nan nan nan nan nan]


### 10 評価値集合の形状

In [12]:
print(f'ruの形状 = {ru.shape}')

ruの形状 = (13,)


### 11 評価値集合の全要素数

In [13]:
print(f'ruの全要素数 = {ru.size}')

ruの全要素数 = 13


### 12 評価値集合の部分集合

In [14]:
i = 2
j = 5
print(f'ru{i}からru{j-1}までの評価値 = {ru[i:j]}')

ru2からru4までの評価値 = [ 1. -1. -1.]


### 13 評価値集合の逆順

`ru[::-1]`により、逆順で値を取り出す。

In [15]:
print(f'ruの逆順 = {ru[::-1]}')

ruの逆順 = [nan nan nan nan nan nan -1. -1. -1. -1.  1.  1.  1.]


### 14 アイテム$i$に対する評価

`ru[i]`を使う。

In [16]:
i = 0
print(f'ru{i} = {ru[i]}')

ru0 = 1.0


## アイテム集合

### 15 ユーザ$u$が未評価であるか否かの判定

ここでは、評価値$r_u$について、その第$i$成分が`np.nan`であるときユーザー$u$がアイテム$i$を未評価であるとして問題を解く。

`np.isnan(nparray)`を使う。

In [17]:
print(f'ユーザuが未評価 = {np.isnan(ru)}')

ユーザuが未評価 = [False False False False False False False  True  True  True  True  True
  True]


### 16 ユーザ$u$が評価済みであるか否かの判定

`np.isnan(nparray)`に対して、`~`をつけてあげれば`True`と`False`が反転するので題意を満たす。

In [18]:
print(f'ユーザuが評価済み = {~np.isnan(ru)}')

ユーザuが評価済み = [ True  True  True  True  True  True  True False False False False False
 False]


### 17 ユーザ$u$が評価済みのアイテム集合$I_u$

16で見た評価済みのアイテムのみを抽出する。

`np.arange()`について、16の結果を使ってインデキシングすることで解決する。

In [19]:
Iu = np.arange(ru.shape[0])[~np.isnan(ru)]
print(f'Iu = {Iu}')

Iu = [0 1 2 3 4 5 6]


### 18 ユーザ$u$が好きと評価したアイテム集合$I_{u+}$

ユーザ$u$が評価済みで、なおかつ評価値が$1$であるようなアイテム集合$I_u$を作る。

`np.where(ruの条件, True, False)`を使う。

In [20]:
Iuplus = np.arange(ru.shape[0])[np.where(ru == 1, True, False)]
print(f'Iu+ = {Iuplus}')

Iu+ = [0 1 2]


### 19 ユーザ$u$が嫌いと評価したアイテム集合$I_{u-}$

`np.where()`の条件部分をいじればよい。

In [21]:
Iuminus = np.arange(ru.shape[0])[np.where(ru == -1, True, False)]
print(f'Iu- = {Iuminus}')

Iu- = [3 4 5 6]


### 20 ユーザ$u$が未評価のアイテム集合$\bar{I}_u$

1. `np.nan`かどうかでインデキシングする。
2. `numpy.setdiff1d()`については、また今度。

In [22]:
Iu_not = np.arange(ru.shape[0])[np.isnan(ru)]
print(f'Iu_not = {Iu_not}')

Iu_not = [ 7  8  9 10 11 12]


## 訓練データと予測対象データ

### 21 訓練データ

17でやったインデキシングを`Du`に直接適用すればできるはず。

In [23]:
DuL = Du[~np.isnan(ru)]
print(f'DuL = \n{DuL}')

DuL = 
[[ 5.  3.  1.]
 [ 6.  2.  1.]
 [ 4.  1.  1.]
 [ 8.  5. -1.]
 [ 2.  4. -1.]
 [ 3.  6. -1.]
 [ 7.  6. -1.]]


### 22 訓練事例数

`np.shape`で`DuL`の行数を求めればよい。

In [24]:
print(f'|DuL| = {DuL.shape[0]}')

|DuL| = 7


### 23 正事例数

`np.where(ruの条件, True, False)`の長さは13なので、これでインデキシングしたい場合`DuL`を対象としてもエラーが発生する。(一敗)

そのため今回は`DuL[:, -1]`、つまり`DuL`の中でも評価値の部分に対して`np.where`を利用した。

In [25]:
print(f'|DuL+| = {DuL[np.where(DuL[:, -1] == 1, True, False)].shape[0]}')

|DuL+| = 3


### 24 不事例数

In [26]:
print(f'|DuL-| = {DuL[np.where(DuL[:, -1] == -1, True, False)].shape[0]}')

|DuL-| = 4


### 25 予測対象事例数

21でやったこととほぼ同じことをやればよい。`~`を外すだけ。

In [27]:
DuU = Du[np.isnan(ru)]
print(f'DuU = \n{DuU}')

DuU = 
[[ 4.  2. nan]
 [ 5.  1. nan]
 [ 8.  6. nan]
 [ 3.  4. nan]
 [ 4.  7. nan]
 [ 4.  4. nan]]


### 26 予測対象事例数

対象を`DuU`として、22と同じことを行う。

In [28]:
print(f'|DuU| = {DuU.shape[0]}')

|DuU| = 6
