In [1]:
import numpy as np

アイテムベクトル: v

In [2]:
v_a = np.random.randn(10)
print(v_a)

[-0.32799869  0.08148253  0.42089643 -0.06586     0.93826168  0.31019688
 -1.18975645 -0.30392449 -0.58966348  0.00761685]


In [3]:
v_b = np.random.randn(10)
v_b

array([ 0.74850507, -1.28931949,  0.5912717 , -1.07119258, -1.42616205,
        1.44267102,  0.92654316, -0.10018496,  1.56592994, -0.38605986])

In [4]:
v_c = np.random.randn(10)
v_c

array([-1.9318801 , -0.48900488, -0.74491951, -0.3325506 ,  0.40199032,
       -1.37007984, -0.03328654, -1.42826342,  2.33481285, -0.18652662])

```


```

各アイテムに対して以下のようなカテゴリベクトルuを考える

カテゴリ数C>=2のとき、要素数Cで
1 <= i <= Cに対して
```
u_i | = K (アイテムのカテゴリがc_i)
    | = -1 (otherwise)
```
  
**ここでKはK > (C - 1) / 2を満たすものとする**

In [5]:
C = 3
u_a = np.array([-1] * C)
u_b = np.array([-1] * C)
u_c = np.array([-1] * C)

# アイテムa,bのカテゴリはc_0、アイテムcのカテゴリはc_1とする
import math
K = math.ceil((C - 1) / 2) + 1  # -2K + C - 1 > 0の条件がいる
u_a[0] = K
u_b[0] = K
u_c[1] = K

```



```
各アイテムベクトルvに対してアイテムベクトルuに|v|をかけたものをconcat

In [6]:
x_a = np.concatenate([v_a, np.linalg.norm(v_a) * u_a])
x_a

array([-0.32799869,  0.08148253,  0.42089643, -0.06586   ,  0.93826168,
        0.31019688, -1.18975645, -0.30392449, -0.58966348,  0.00761685,
        3.53718674, -1.76859337, -1.76859337])

In [7]:
x_b = np.concatenate([v_b,  np.linalg.norm(v_b) * u_b])
x_b

array([ 0.74850507, -1.28931949,  0.5912717 , -1.07119258, -1.42616205,
        1.44267102,  0.92654316, -0.10018496,  1.56592994, -0.38605986,
        6.72446169, -3.36223084, -3.36223084])

In [8]:
x_c = np.concatenate([v_c,  np.linalg.norm(v_c) * u_c])
x_c

array([-1.9318801 , -0.48900488, -0.74491951, -0.3325506 ,  0.40199032,
       -1.37007984, -0.03328654, -1.42826342,  2.33481285, -0.18652662,
       -3.76864486,  7.53728973, -3.76864486])

```


```
このとき、x_1、x_2が同カテゴリであれば


$$
\begin{align}
cos\_sim(x_1, x_2) &= \frac{x_1 \cdot x_2}{|x_1||x_2|} \\
&= \frac{v_1 \cdot v_2 + |v_1||v_2| u_1 \cdot u_2}{|x_1||x_2|} \\
&= \frac{v_1 \cdot v_2 + |v_1||v_2|(K^2 + C - 1)}{|x_1||x_2|} \\
&> \frac{v_1 \cdot v_2 + |v_1||v_2|}{|x_1||x_2|} \quad (1) \\ 
&>= \frac{-|v_1 \cdot v_2| + |v_1||v_2|}{|x_1||x_2|} \\ 
&>0 \quad (2)
\end{align}
$$

+ (1) C >=2よりK^2 + C - 1 > 1
+ (2) シュワルツの不等式

このとき、x_1、x_2が異なるカテゴリであれば
$$
\begin{align}
cos\_sim(x_1, x_2) &= \frac{x_1 \cdot x_2}{|x_1||x_2|} \\
&= \frac{v_1 \cdot v_2 + |v_1||v_2| u_1 \cdot u_2}{|x_1||x_2|} \\
&= \frac{v_1 \cdot v_2 + |v_1||v_2|(-2K + C - 2)}{|x_1||x_2|} \\
&<= \frac{|v_1||v_2| + |v_1||v_2|(-2K + C - 2)}{|x_1||x_2|} \quad (3) \\ 
&= \frac{|v_1||v_2|(-2K + C - 1)}{|x_1||x_2|} \\
&<0 \quad (4)
\end{align}
$$

+ (3) シュワルツの不等式
+ (4) Kの条件

またv_1, v_2, v_3が同カテゴリで
$$
cos\_sim(v_1, v_2) > cos\_sim(v_1, v_3)
$$
すなわち
$$
\frac{v_1 \cdot v_2}{|v_1||v_2|} > \frac{v_1 \cdot v_3}{|v_1||v_3|}
$$
のとき、共通のカテゴリベクトルをuとすると

$$
\begin{align}
cos\_sim(x_1, x_2) - cos\_sim(x_1, x_3)
&= \frac{x_1 \cdot x_2}{|x_1||x_2|} - \frac{x_1 \cdot x_3}{|x_1||x_3|} \\
&= \left ( v_1 \cdot v_2 + |v_1||v_2||u|^2 \right ) / \left ( \sqrt{|v_1|^2 + |v_1|^2|u|^2}\sqrt{|v_2|^2 + |v_2|^2|u|^2} \right )
 - \left ( v_1 \cdot v_3 + |v_1||v_3||u|^2 \right ) / \left ( \sqrt{|v_1|^2 + |v_1|^2|u|^2}\sqrt{|v_3|^2 + |v_3|^2|u|^2} \right ) \\
&=  \left ( \frac{v_1 \cdot v_2}{|v_1||v_2|} + |u|^2 \right ) / \left ( \sqrt{1 + |u|^2}\sqrt{1 + |u|^2} \right )
 -  \left ( \frac{v_1 \cdot v_3}{|v_1||v_3|} + |u|^2 \right ) / \left ( \sqrt{1 + |u|^2}\sqrt{1 + |u|^2} \right ) \\
&= \left ( \frac{v_1 \cdot v_2}{|v_1||v_2|} - \frac{v_1 \cdot v_3}{|v_1||v_3|} \right ) / \left ( 2\sqrt{1 + |u|^2} \right ) \\
&> 0
\end{align}
$$

なので大小関係は変わらない

In [9]:
def cos_sim(v1, v2):
    return np.dot(v1, v2) / (np.linalg.norm(v1) * np.linalg.norm(v2))

In [10]:
cos_sim(x_a, x_b)

0.7869931191099709

In [11]:
cos_sim(x_b, x_c)

-0.4241657465783454

In [12]:
cos_sim(x_c, x_a)

-0.44250592094915764

In [13]:
cos_sim(v_a, v_b)

-0.49104816623020353

In [14]:
# 同カテゴリシミュレーション
for _ in range(10000):
    v_a = np.random.randn(128)
    v_b = np.random.randn(128)
    v_c = np.random.randn(128)
    C = 30
    u_a = np.array([-1] * C)
    u_b = np.array([-1] * C)
    u_c = np.array([-1] * C)
    K = math.ceil((C - 1) / 2) + 1  # -2K + C - 1 > 0の条件がいる
    u_a[0] = K
    u_b[0] = K
    u_c[0] = K
    x_a = np.concatenate([v_a, np.linalg.norm(v_a) * u_a])
    x_b = np.concatenate([v_b,  np.linalg.norm(v_b) * u_b])
    x_c = np.concatenate([v_c,  np.linalg.norm(v_c) * u_c])
    assert cos_sim(x_a, x_b) > 0
    assert cos_sim(x_b, x_c) > 0
    assert cos_sim(x_c, x_a) > 0
    assert (cos_sim(x_a, x_b) > cos_sim(x_b, x_c)) == (cos_sim(v_a, v_b) > cos_sim(v_b, v_c))

In [15]:
# 異なるカテゴリシミュレーション
for _ in range(10000):
    v_a = np.random.randn(128)
    v_b = np.random.randn(128)
    C = 30
    u_a = np.array([-1] * C)
    u_b = np.array([-1] * C)
    K = math.ceil((C - 1) / 2) + 1  # -2K + C - 1 > 0の条件がいる
    u_a[0] = K
    u_b[1] = K
    x_a = np.concatenate([v_a, np.linalg.norm(v_a) * u_a])
    x_b = np.concatenate([v_b,  np.linalg.norm(v_b) * u_b])
    assert cos_sim(x_a, x_b) < 0