In [4]:
import numpy as np

# Content-Based (CB):
Asume que tenemos features y que podemos plantear la solución en función de esos features

$\huge Y_{n_mn_u} = X_{n_mn_f} \theta_{n_un_f}^T$

- $n_m$ -> Cantidad de peliculas o items a calificar
- $n_u$ -> Cantidad de usuarios
- $n_f$ -> Cantidad de features
- $Y_{n_mn_u}$ -> Matriz con ratings (Cada usuario j a cada pelicula i)

$\large Y_{n_mn_u} = \begin{bmatrix}
    0.98  &  1.14 & 0.7 & 4.5  \\
    1.86  & 0.64 & 0.3 & 1.58 \\
    \dots \\ 
    1.16  & 2.75 & 0.7 & 4.51
\end{bmatrix}$

$\huge X_{n_mn_f}$

Cada vector $X_{n_fi}^T$ contiene en cada elemento el grado de cada feature que contiene la película i'esima

Por ejemplo, si los features son [romanticismo, accion, suspenso, terror], una pelicula con vector [0, 0.8, 0.7, 0.1] no tendra romanticismo, tendra alto contenido de acción y suspenso, y una fracción pequeña de terror

$\large X_{n_mn_f} = \begin{bmatrix}
    0  & 0.8 & 0.7 & 0.1 \\
    0.8  & 0.2 & 0.3 & 0.1 \\
    \dots \\ 
    0.1  & 0.8 & 0.7 & 0.9
\end{bmatrix}$

In [13]:
X = np.array([[0, 0.8, 0.7, 0.1], [0.8  , 0.2 , 0.3 , 0.1],[0.1  , 0.8 , 0.7 , 0.9]])
T = np.array([[1.8  , 0 , 1.4 , 0], [0.1  , 0.3 , 1 , 2], [0.1  , 3 , 3 , 0]])
print(X)
print(T)

[[0.  0.8 0.7 0.1]
 [0.8 0.2 0.3 0.1]
 [0.1 0.8 0.7 0.9]]
[[1.8 0.  1.4 0. ]
 [0.1 0.3 1.  2. ]
 [0.1 3.  3.  0. ]]


In [14]:
X.dot(T.T)

array([[0.98, 1.14, 4.5 ],
       [1.86, 0.64, 1.58],
       [1.16, 2.75, 4.51]])

$\huge \theta_{n_un_f}$

Cada vetor $\theta_{n_fj}^T$ contiene en cada elemento la fracción de gusto de cada feature del usuario j'esimo

Por ejemplo, si los features son [romanticismo, accion, suspenso, terror], a un usuario con vector [1.8, 0, 1.4, 0] le gustarán mayormente las pelicular románticas con suspenso

$\large \theta_{n_un_f} = \begin{bmatrix}
    1.8  & 0 & 1.4 & 0 \\
    0.1  & 0.3 & 1 & 2 \\
    \dots \\ 
    0.1  & 3 & 3 & 0
\end{bmatrix}$

# Ejemplo

$\huge \theta_{jn_f}^TX_{in_f}$ producto entre vector de features de pelicula i'esima con vector features de usuario j'esimo

In [6]:
# Pelicula con contenido alto de suspenso y acción
Xi = np.array([0, 0.8, 0.7, 0.1]).reshape(-1,1)

#Usuario con gustos de romanticismo y acción
thetaj = np.array([1.8, 0, 1.4, 0]).reshape(-1,1)
print(Xi.T, thetaj.T)
print(thetaj.T.dot(Xi))

print()
#Usuario con gustos de Suspenso y acción
thetaj = np.array([0.1, 3, 3, 0]).reshape(-1,1)
print(Xi.T, thetaj.T)
print(thetaj.T.dot(Xi))

[[0.  0.8 0.7 0.1]] [[1.8 0.  1.4 0. ]]
[[0.98]]

[[0.  0.8 0.7 0.1]] [[0.1 3.  3.  0. ]]
[[4.5]]


# Función de costo

$\huge J = \huge \frac{1}{2} \sum_{j=1}^{n_u} \sum_{i:r(i,j)=1} (\theta^{(j)^T}x^{(i)}-y^{(i,j)})^2 + 
\frac{\lambda}{2}\sum_{j=1}^{n_u} \sum_{k=1}^{n_f}\theta_k^{(j)^2}$

Solo aprendemos los $\Theta$, para los $X$ hay que hacer ingeñería de features