Візьміть датасет movielens і побудуйте модель матричної факторизації. У даній бібліотеці він має назву SVD. Підберіть найкращі параметри за допомогою крос-валідації, також поекспериментуйте з іншими алгоритмами розрахунків (SVD++, NMF) і оберіть той, який буде оптимальним.

In [3]:
!pip install scikit-surprise

Collecting scikit-surprise
  Downloading scikit-surprise-1.1.3.tar.gz (771 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.0/772.0 kB[0m [31m4.8 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (setup.py) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.3-cp310-cp310-linux_x86_64.whl size=3163002 sha256=2c0cc1a42ca6ded6b2db171ad6eb9a892f762b4866dbfbd054cb62503789b1e6
  Stored in directory: /root/.cache/pip/wheels/a5/ca/a8/4e28def53797fdc4363ca4af740db15a9c2f1595ebc51fb445
Successfully built scikit-surprise
Installing collected packages: scikit-surprise
Successfully installed scikit-surprise-1.1.3


In [4]:
import pandas as pd
from surprise import accuracy, Dataset, SVD, SVDpp, NMF
from surprise.model_selection import train_test_split
from surprise.model_selection import cross_validate

Першою побудуємо модель SVD

In [6]:
df_movielens = Dataset.load_builtin(name = 'ml-100k' , prompt = True)

algo_SVD = SVD()

temp_SVD = cross_validate(algo_SVD, df_movielens, measures=['RMSE', 'MAE'], cv=5, verbose=True)
df_SVD = pd.DataFrame.from_dict(temp_SVD).mean(axis=0)

Evaluating RMSE, MAE of algorithm SVD on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9347  0.9398  0.9287  0.9383  0.9360  0.9355  0.0039  
MAE (testset)     0.7390  0.7428  0.7319  0.7365  0.7372  0.7375  0.0036  
Fit time          2.81    2.05    2.12    1.65    1.78    2.08    0.40    
Test time         0.48    0.14    0.34    0.15    0.29    0.28    0.13    


Другий алгоритм - SVD++

In [7]:
algo_SVDpp = SVDpp()

temp_SVDpp = cross_validate(algo_SVDpp, df_movielens, measures=['RMSE', 'MAE'], cv=5, verbose=True)
df_SVDpp = pd.DataFrame.from_dict(temp_SVDpp).mean(axis=0)

Evaluating RMSE, MAE of algorithm SVDpp on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9166  0.9157  0.9255  0.9263  0.9200  0.9208  0.0044  
MAE (testset)     0.7179  0.7142  0.7275  0.7287  0.7188  0.7214  0.0057  
Fit time          28.12   28.57   28.86   27.22   27.93   28.14   0.56    
Test time         5.22    5.67    5.71    5.50    5.22    5.46    0.21    


Третій алгоритм - NMF

In [8]:
algo_NMF = NMF()

temp_NMF = cross_validate(algo_NMF, df_movielens, measures=['RMSE', 'MAE'], cv=5, verbose=True)
df_NMF = pd.DataFrame.from_dict(temp_NMF).mean(axis=0)

Evaluating RMSE, MAE of algorithm NMF on 5 split(s).

                  Fold 1  Fold 2  Fold 3  Fold 4  Fold 5  Mean    Std     
RMSE (testset)    0.9724  0.9602  0.9656  0.9556  0.9570  0.9622  0.0062  
MAE (testset)     0.7645  0.7538  0.7617  0.7493  0.7520  0.7563  0.0058  
Fit time          2.38    2.64    2.52    2.27    2.84    2.53    0.20    
Test time         0.11    0.34    0.11    0.32    0.11    0.20    0.11    


In [9]:
df_comparison = pd.concat([df_SVD, df_SVDpp, df_NMF], axis=1)
df_comparison.columns = ['SVD', 'SVDpp', 'NMF']

print(df_comparison)

                SVD      SVDpp       NMF
test_rmse  0.935513   0.920830  0.962172
test_mae   0.737486   0.721425  0.756275
fit_time   2.082548  28.140711  2.532057
test_time  0.280349   5.463974  0.198054


**Аналізуючи результати можна прийти до таких висновків:**
1. **test_rmse (RMSE)** Що ближче це значення до нуля, то краща модель. Серед трьох алгоритмів краще результат у SVD++ = 0.92
2. **test_mae (MAE)** Що ближче це значення до нуля, то краща модель. Серед трьох алгоритмів краще результат у SVD++ = 0.72
3. **fit_time** Це важливий параметр, який показує швидкість навчання моделі.Найбільший результат у SVD++ = 28.14, тобто ця модель буде навчатися найдовше
4. **test_time** Це також важливий параметр, який показує швидкість роботи моделі на нових даних. У цьому випадку, модель SVD++ потребує більше часу на тестування (5.46 секунд), ніж інші моделі.

Додаткове завдання з зірочкою

​

Для більшого заглиблення в роботу алгоритму, пропонуємо реалізувати алгоритм колабораційної фільтрації з нуля. Для цього ми можемо скористатись нашою домашньою роботою з 3-ого модуля. Якщо ми модифікуємо функцію втрат та розрахунок градієнтів, то зможемо побудувати алгоритм матричної факторизації.



Тут ви можете побачити формули та завантаження датасету. А ось посилання на назви фільмів та на рейтинги.



Вдалої роботи!

In [10]:
# will be used to load MATLAB mat datafile format
import numpy as np
from scipy.io import loadmat
from scipy import optimize

In [11]:
path_movie= 'movie_ids.txt'

In [12]:
def loadMovieList():
    """
    Reads the fixed movie list in movie_ids.txt and returns a list of movie names.
    Returns
    -------
    movieNames : list
        A list of strings, representing all movie names.
    """
    # Read the fixed movieulary list
    with open(path_movie,  encoding='ISO-8859-1') as fid:
        movies = fid.readlines()

    movieNames = []
    for movie in movies:
        parts = movie.split()
        movieNames.append(' '.join(parts[1:]).strip())
    return movieNames

In [14]:
films_names = loadMovieList()
print(f"Number of movies {len(films_names)}")

Number of movies 1682


## Рекомендаційні системи

In this part of the exercise, you will implement the collaborative filtering learning algorithm and apply it to a dataset of movie ratings ([MovieLens 100k Dataset](https://grouplens.org/datasets/movielens/) from GroupLens Research). This dataset consists of ratings on a scale of 1 to 5. The dataset has $n_u = 943$ users, and $n_m = 1682$ movies.

In the next parts of this exercise, you will implement the function `cofiCostFunc` that computes the collaborative filtering objective function and gradient. After implementing the cost function and gradient, you will use `scipy.optimize.minimize` to learn the parameters for collaborative filtering.

### 2.1 Movie ratings dataset

The next cell will load the dataset `movies.mat`, providing the variables `Y` and `R`.
The matrix `Y` (a `num_movies` $\times$ `num_users` matrix) stores the ratings $y^{(i,j)}$ (from 1 to 5). The matrix `R` is an binary-valued indicator matrix, where $R(i, j) = 1$ if user $j$ gave a rating to movie $i$, and $R(i, j) = 0$ otherwise. The objective of collaborative filtering is to predict movie ratings for the movies that users have not yet rated, that is, the entries with $R(i, j) = 0$. This will allow us to recommend the movies with the highest predicted ratings to the user.

To help you understand the matrix `Y`, the following cell will compute the average movie rating for the first movie (Toy Story) and print its average rating.

In [15]:
names = loadMovieList()

In [16]:
# Load data
data = loadmat('movies.mat')
Y, R = data['Y'], data['R']

# Y is a 1682x943 matrix, containing ratings (1-5) of
# 1682 movies on 943 users

# R is a 1682x943 matrix, where R(i,j) = 1
# if and only if user j gave a rating to movie i

# From the matrix, we can compute statistics like average rating.
print('Average rating for movie 1601 (',names[1601] ,'): %f / 5' %
      np.mean(Y[180, R[1601, :]]))


Average rating for movie 1601 ( Price Above Rubies, A (1998) ): 4.984093 / 5


Throughout this part of the exercise, you will also be working with the matrices, `X` and `W`:

$$ \text{X} =
\begin{bmatrix}
- \left(x^{(1)}\right)^T - \\
- \left(x^{(2)}\right)^T - \\
\vdots \\
- \left(x^{(n_m)}\right)^T - \\
\end{bmatrix}, \quad
\text{W} =
\begin{bmatrix}
- \left(w^{(1)}\right)^T - \\
- \left(w^{(2)}\right)^T - \\
\vdots \\
- \left(w^{(n_u)}\right)^T - \\
\end{bmatrix}.
$$

The $i^{th}$ row of `X` corresponds to the feature vector $x^{(i)}$ for the $i^{th}$ movie, and the $j^{th}$ row of `W` corresponds to one parameter vector $w^{(j)}$, for the $j^{th}$ user. Both $x^{(i)}$ and $w^{(j)}$ are n-dimensional vectors. For the purposes of this exercise, you will use $n = 100$, and therefore, $x^{(i)} \in \mathbb{R}^{100}$ and $w^{(j)} \in \mathbb{R}^{100}$. Correspondingly, `X` is a $n_m \times 100$ matrix and `W` is a $n_u \times 100$ matrix.

<a id="section3"></a>
### 2.2 Collaborative filtering learning algorithm

Now, you will start implementing the collaborative filtering learning algorithm. You will start by implementing the cost function (without regularization).

The collaborative filtering algorithm in the setting of movie recommendations considers a set of n-dimensional parameter vectors $x^{(1)}, \dots, x^{(n_m)}$ and $w^{(1)} , \dots, w^{(n_u)}$, where the model predicts the rating for movie $i$ by user $j$ as $y^{(i,j)} = \left( w^{(j)} \right)^T x^{(i)}$. Given a dataset that consists of a set of ratings produced by some users on some movies, you wish to learn the parameter vectors $x^{(1)}, \dots, x^{(n_m)}, w^{(1)}, \dots, w^{(n_u)}$ that produce the best fit (minimizes the squared error).

You will complete the code in `cofiCostFunc` to compute the cost function and gradient for collaborative filtering. Note that the parameters to the function (i.e., the values that you are trying to learn) are `X` and `W`. In order to use an off-the-shelf minimizer such as `scipy`'s `minimize` function, the cost function has been set up to unroll the parameters into a single vector called `params`. You had previously used the same vector unrolling method in the neural networks programming exercise.

#### 2.2.1 Collaborative filtering cost function

The collaborative filtering cost function (without regularization) is given by

$$
J(x^{(1)}, \dots, x^{(n_m)}, w^{(1)}, \dots, w^{(n_u)}) = \frac{1}{2} \sum_{(i,j):r(i,j)=1} \left( \left(w^{(j)}\right)^T x^{(i)} - y^{(i,j)} \right)^2
$$

You should now modify the function `cofiCostFunc` to return this cost in the variable `J`. Note that you should be accumulating the cost for user $j$ and movie $i$ only if `R[i,j] = 1`.

<div class="alert alert-block alert-warning">
**Implementation Note**: We strongly encourage you to use a vectorized implementation to compute $J$, since it will later by called many times by `scipy`'s optimization package. As usual, it might be easiest to first write a non-vectorized implementation (to make sure you have the right answer), and the modify it to become a vectorized implementation (checking that the vectorization steps do not change your algorithm’s output). To come up with a vectorized implementation, the following tip might be helpful: You can use the $R$ matrix to set selected entries to 0. For example, `R * M` will do an element-wise multiplication between `M`
and `R`; since `R` only has elements with values either 0 or 1, this has the effect of setting the elements of M to 0 only when the corresponding value in R is 0. Hence, `np.sum( R * M)` is the sum of all the elements of `M` for which the corresponding element in `R` equals 1.
</div>

<a id="cofiCostFunc"></a>

<a id="section4"></a>
#### 2.2.2 Collaborative filtering gradient

Now you should implement the gradient (without regularization). Specifically, you should complete the code in `cofiCostFunc` to return the variables `X_grad` and `W_grad`. Note that `X_grad` should be a matrix of the same size as `X` and similarly, `W_grad` is a matrix of the same size as
`W`. The gradients of the cost function is given by:

$$ \frac{\partial J}{\partial x_k^{(i)}} = \sum_{j:r(i,j)=1} \left( \left(w^{(j)}\right)^T x^{(i)} - y^{(i,j)} \right) w_k^{(j)} $$

$$ \frac{\partial J}{\partial w_k^{(j)}} = \sum_{i:r(i,j)=1} \left( \left(w^{(j)}\right)^T x^{(i)}- y^{(i,j)} \right) x_k^{(j)} $$

Note that the function returns the gradient for both sets of variables by unrolling them into a single vector. After you have completed the code to compute the gradients, the next cell run a gradient check
(available in `utils.checkCostFunction`) to numerically check the implementation of your gradients (this is similar to the numerical check that you used in the neural networks exercise. If your implementation is correct, you should find that the analytical and numerical gradients match up closely.

<div class="alert alert-block alert-warning">
**Implementation Note:** You can get full credit for this assignment without using a vectorized implementation, but your code will run much more slowly (a small number of hours), and so we recommend that you try to vectorize your implementation. To get started, you can implement the gradient with a for-loop over movies
(for computing $\frac{\partial J}{\partial x^{(i)}_k}$) and a for-loop over users (for computing $\frac{\partial J}{w_k^{(j)}}$). When you first implement the gradient, you might start with an unvectorized version, by implementing another inner for-loop that computes each element in the summation. After you have completed the gradient computation this way, you should try to vectorize your implementation (vectorize the inner for-loops), so that you are left with only two for-loops (one for looping over movies to compute $\frac{\partial J}{\partial x_k^{(i)}}$ for each movie, and one for looping over users to compute $\frac{\partial J}{\partial w_k^{(j)}}$ for each user).
</div>

<div class="alert alert-block alert-warning">
**Implementation Tip:** To perform the vectorization, you might find this helpful: You should come up with a way to compute all the derivatives associated with $x_1^{(i)} , x_2^{(i)}, \dots , x_n^{(i)}$ (i.e., the derivative terms associated with the feature vector $x^{(i)}$) at the same time. Let us define the derivatives for the feature vector of the $i^{th}$ movie as:

$$ \left(X_{\text{grad}} \left(i, :\right)\right)^T =
\begin{bmatrix}
\frac{\partial J}{\partial x_1^{(i)}} \\
\frac{\partial J}{\partial x_2^{(i)}} \\
\vdots \\
\frac{\partial J}{\partial x_n^{(i)}}
\end{bmatrix} = \quad
\sum_{j:r(i,j)=1} \left( \left( w^{(j)} \right)^T x^{(i)} - y^{(i,j)} \right) w^{(j)}
$$

To vectorize the above expression, you can start by indexing into `W` and `Y` to select only the elements of interests (that is, those with `r[i, j] = 1`). Intuitively, when you consider the features for the $i^{th}$ movie, you only need to be concerned about the users who had given ratings to the movie, and this allows you to remove all the other users from `W` and `Y`. <br/><br/>


Concretely, you can set `idx = np.where(R[i, :] == 1)[0]` to be a list of all the users that have rated movie $i$. This will allow you to create the temporary matrices `W_temp = W[idx, :]` and `Y_temp = Y[i, idx]` that index into `W` and `Y` to give you only the set of users which have rated the $i^{th}$ movie. This will allow you to write the derivatives as: <br>

`X_grad[i, :] = np.dot(np.dot(X[i, :], W_temp.T) - Y_temp, W_temp)`

<br><br>
Note that the vectorized computation above returns a row-vector instead. After you have vectorized the computations of the derivatives with respect to $x^{(i)}$, you should use a similar method to vectorize the derivatives with respect to $w^{(j)}$ as well.
</div>

<a id="section5"></a>
#### 2.2.3 Regularized cost function

The cost function for collaborative filtering with regularization is given by

$$ J(x^{(1)}, \dots, x^{(n_m)}, w^{(1)}, \dots, w^{(n_u)}) = \frac{1}{2} \sum_{(i,j):r(i,j)=1} \left( \left( w^{(j)} \right)^T x^{(i)} - y^{(i,j)} \right)^2 + \left( \frac{\lambda}{2} \sum_{j=1}^{n_u} \sum_{k=1}^{n} \left( w_k^{(j)} \right)^2  \right) + \left( \frac{\lambda}{2} \sum_{i=1}^{n_m} \sum_{k=1}^n \left(x_k^{(i)} \right)^2 \right) $$

You should now add regularization to your original computations of the cost function, $J$. After you are done, the next cell will run your regularized cost function, and you should expect to see a cost of about 31.34.

<a id="section6"></a>
#### 2.2.4 Regularized gradient

Now that you have implemented the regularized cost function, you should proceed to implement regularization for the gradient. You should add to your implementation in `cofiCostFunc` to return the regularized gradient
by adding the contributions from the regularization terms. Note that the gradients for the regularized cost function is given by:

$$ \frac{\partial J}{\partial x_k^{(i)}} = \sum_{j:r(i,j)=1} \left( \left(w^{(j)}\right)^T x^{(i)} - y^{(i,j)} \right) w_k^{(j)} + \lambda x_k^{(i)} $$

$$ \frac{\partial J}{\partial w_k^{(j)}} = \sum_{i:r(i,j)=1} \left( \left(w^{(j)}\right)^T x^{(i)}- y^{(i,j)} \right) x_k^{(j)} + \lambda w_k^{(j)} $$

This means that you just need to add $\lambda x^{(i)}$ to the `X_grad[i,:]` variable described earlier, and add $\lambda w^{(j)}$ to the `W_grad[j, :]` variable described earlier.

### 2.3 Learning movie recommendations

After you have finished implementing the collaborative filtering cost function and gradient, you can now start training your algorithm to make movie recommendations for yourself. In the next cell, you can enter your own movie preferences, so that later when the algorithm runs, you can get your own movie recommendations! We have filled out some values according to our own preferences, but you should change this according to your own tastes. The list of all movies and their number in the dataset can be found listed in the file `Data/movie_idx.txt`.

In [17]:
movieList = loadMovieList()

In [18]:
movies_id_list = [0, 97, 6, 11, 53, 63, 65, 68, 182, 225, 354]

for movie in movies_id_list:
  print(movieList[movie])

Toy Story (1995)
Silence of the Lambs, The (1991)
Twelve Monkeys (1995)
Usual Suspects, The (1995)
Outbreak (1995)
Shawshank Redemption, The (1994)
While You Were Sleeping (1995)
Forrest Gump (1994)
Alien (1979)
Die Hard 2 (1990)
Sphere (1998)


#### 2.3.1 Recommendations

After the additional ratings have been added to the dataset, the script
will proceed to train the collaborative filtering model. This will learn the
parameters `X` and `W`. To predict the rating of movie $i$ for user $j$, you need to compute $(w^{(j)})^T x^{(i)}$ . The next part of the script computes the ratings for
all the movies and users and displays the movies that it recommends (Figure
4), according to ratings that were entered earlier in the script. Note that
you might obtain a different set of the predictions due to different random
initializations.

Нормалізуємо рейтинги фільмів

In [20]:
def normalizeRatings(Y, R):
    count_movies, count_users = Y.shape
    Y_mean_rating = np.zeros(count_movies)
    Y_norm_rating= np.zeros(Y.shape)

    for i in range(count_movies):
        idx = R[i, :] == 1
        Y_mean_rating[i] = np.mean(Y[i, idx])
        Y_norm_rating[i, idx] = Y[i, idx] - Y_mean_rating[i]

    return Y_norm_rating, Y_mean_rating

Вирахуємо чисельний градіент функції J за параметром theta

In [21]:

def computeNumericalGradient(J, theta, e=1e-4):
    array_for_numeric_gradient = np.zeros(theta.shape)
    diagonal_matrix_e = np.diag(e * np.ones(theta.shape))  #

    for i in range(theta.size):
        first_loss, _ = J(theta - diagonal_matrix_e[:, i])
        second_loss, _ = J(theta + diagonal_matrix_e[:, i])

        array_for_numeric_gradient[i] = (second_loss - first_loss) / (2 * e)

    return array_for_numeric_gradient

Перевіряємо коректність реалізації функції вартості за допомогою числового градієнта

In [31]:
def checkCostFunction(cofiCostFunc, lambda_=0.):

    #Створимо контрольну точку для перевірки реалізації функції вартості
    random_users = 5
    random_movies = 4
    random_features = 3

    X_t = np.random.rand(random_movies, random_features)
    Theta_t = np.random.rand(random_users, random_features)

    #Замінюємо більшість записів на 0
    Y = np.dot(X_t, Theta_t.T)
    Y[np.random.rand(*Y.shape) > 0.5] = 0
    R = np.zeros(Y.shape)
    R[Y != 0] = 1

    #Запускаємо перевірку градієнта
    X = np.random.randn(*X_t.shape)
    Theta = np.random.randn(*Theta_t.shape)

    #Об'єднуємо параметри в один вектор
    params = np.concatenate([X.ravel(), Theta.ravel()])

    #Обчислюємо чисельний градієнт
    numerical_gradient = computeNumericalGradient(
        lambda x: cofiCostFunc(x,
                               Y,
                               R,
                               random_users,
                               random_movies,
                               random_features,
                               lambda_), params)

    #Обчислюємо аналітичний градієнт
    cost, analytical_gradient = cofiCostFunc(params,
                              Y,
                              R,
                              random_users,
                              random_movies,
                              random_features,
                              lambda_)


    print("чисельний градієнт:", numerical_gradient)
    print("аналітичний градієнт:", analytical_gradient)

    #Обчислюємо відносну різницю між чисельним та аналітичним градієнтами
    diff = np.linalg.norm(numerical_gradient - analytical_gradient) / np.linalg.norm(numerical_gradient + analytical_gradient)

    print('відносна різниця між чисельним та аналітичнм градієнтом', diff)

Обчислюємо функцію вартості та її градієнт для алгоритму колаборативної фільтрації

In [30]:
def cofiCostFunc(params, Y, R, num_users, num_movies, num_features, lambda_=0.0):

    #Розпаковуємо матриці X і Theta з параметрів
    X = params[:num_movies*num_features].reshape(num_movies, num_features)
    Theta = params[num_movies*num_features:].reshape(num_users, num_features)

    #ініціалізуємо змінні для функції вартості та градієнта
    J = 0
    X_grad = np.zeros(X.shape)
    Theta_grad = np.zeros(Theta.shape)

    #Обчислюємо функцію вартості
    J = (1 / 2) * np.sum(np.square((X.dot(Theta.T) - Y) * R)) + \
        (lambda_ / 2) * np.sum(np.square(X)) + \
        (lambda_ / 2) * np.sum(np.square(Theta))

    #обчислюємо градієнт за факторами фільмів (X) і користувачами (Theta)
    for i in range(R.shape[0]):
        idx = np.where(R[i, :] == 1)[0]
        Theta_temp = Theta[idx, :]
        Y_temp = Y[i, idx]
        X_grad[i, :] = np.dot(np.dot(X[i, :], Theta_temp.T) - Y_temp, Theta_temp) + lambda_ * X[i, :]

    for j in range(R.shape[1]):
        idx = np.where(R[:, j] == 1)[0]
        X_temp = X[idx, :]
        Y_temp = Y[idx, j]
        Theta_grad[j, :] = np.dot(np.dot(X_temp, Theta[j, :]) - Y_temp, X_temp) + lambda_ * Theta[j, :]

    #об'єднуємо градієнти в один вектор і повертаємо результати
    grad = np.concatenate([X_grad.ravel(), Theta_grad.ravel()])
    return J, grad

In [None]:
checkCostFunction(cofiCostFunc, 1.5)

чисельний градієнт: [ 2.10940419 -0.10737386  4.43357987 -0.16002604  3.60681291 -2.23932242
 -1.1754681   3.48476288  3.96499627  2.6066268   3.87564047 -3.42429289
  1.98019928 -2.68246434 -3.81647592 -1.96915702  0.62494857 -4.00280497
 -0.45634507 -2.03657066 -1.15416494  0.77504072  0.75916746 -0.76447943
 -0.95749476 -4.42412631  5.20681314]
аналітичний градієнт: [ 2.10940419 -0.10737386  4.43357987 -0.16002604  3.60681291 -2.23932242
 -1.1754681   3.48476288  3.96499627  2.6066268   3.87564047 -3.42429289
  1.98019928 -2.68246434 -3.81647592 -1.96915702  0.62494857 -4.00280497
 -0.45634507 -2.03657066 -1.15416494  0.77504072  0.75916746 -0.76447943
 -0.95749476 -4.42412631  5.20681314]
відносна різниця між чисельним та аналітичнм градієнтом 2.7276631651031018e-12


Змоделюємо дії користувача, зробимо вибірку з 10 фільмів і проставимо їм оцінку.

In [29]:
movieList = loadMovieList()
n_movies = len(movieList)
my_ratings = np.zeros(n_movies)

movies_to_rate = np.random.choice(n_movies, size=10, replace=False)

for movie_idx in movies_to_rate:
    rating = np.random.randint(2, 6)
    my_ratings[movie_idx] = rating


print("Підсумкові оцінки для випадково обраних фільмів:")
for idx, rating in enumerate(my_ratings):
    if idx in movies_to_rate:
        movie_title = movieList[idx]
        print(f"Фільм: {movie_title}, Оцінка: {rating}")

Підсумкові оцінки для випадково обраних фільмів:
Фільм: Free Willy 3: The Rescue (1997), Оцінка: 3.0
Фільм: Man Who Would Be King, The (1975), Оцінка: 2.0
Фільм: Christmas Carol, A (1938), Оцінка: 3.0
Фільм: Phantom, The (1996), Оцінка: 4.0
Фільм: Hearts and Minds (1996), Оцінка: 4.0
Фільм: Lightning Jack (1994), Оцінка: 2.0
Фільм: Kazaam (1996), Оцінка: 2.0
Фільм: Reckless (1995), Оцінка: 2.0
Фільм: Even Cowgirls Get the Blues (1993), Оцінка: 2.0
Фільм: New Jersey Drive (1995), Оцінка: 3.0


Реалізуємо алгоритм колаборативної фільтрації, який використовується для рекомендації фільмів користувачеві на основі їхніх оцінок та оцінок інших користувачів.

In [32]:
# Додамо власні оцінки до матриці даних
Y = np.hstack([my_ratings[:, None], Y])
R = np.hstack([(my_ratings > 0)[:, None], R])

# Нормалізуємо оцінки
Ynorm, Ymean = normalizeRatings(Y, R)

# Визначаємо кількості фільмів і користувачів
random_movies, random_users = Y.shape

# Встановлюэмо кількості ознак
random_features = 7

# Ініціалізація параметрів (Theta, X)
X = np.random.randn(random_movies, random_features)
Theta = np.random.randn(random_users, random_features)

# Об'єднання параметрів в один вектор
initial_parameters = np.concatenate([X.ravel(), Theta.ravel()])

# Встановлення параметрів для алгоритму оптимізації
options = {'maxfun': 100}

# Встановлення параметра регуляризації
lambda_ = 10

# Оптимізація параметрів за допомогою алгоритму TNC
res = optimize.minimize(lambda x: cofiCostFunc(x, Ynorm, R, random_users,
                                               random_movies, random_features, lambda_),
                        initial_parameters,
                        method='TNC',
                        jac=True,
                        options=options)
theta = res.x

# Розгортання повернутої theta назад у матриці X і Theta
X = theta[:random_movies*random_features].reshape(random_movies, random_features)
Theta = theta[random_movies*random_features:].reshape(random_users, random_features)

In [36]:
predicted_ratings = np.dot(X, Theta.T)
# Додавання середньої оцінки для кожного фільму
my_predictions = predicted_ratings[:, 0] + Ymean

# Завантаження списку фільмів
movieList = loadMovieList()

# Отримання індексів фільмів у порядку убування передбачених рейтингів
sorted_indices = np.argsort(my_predictions)[::-1]

# Виведення топ-20 рекомендацій для користувача
print('Топ рекомендацій для вас:')

for i in range(20):
    index = sorted_indices[i]
    print('Передбачуваний рейтинг %.1f для фільму %s' % (my_predictions[index], movieList[index]))

# Виведення вихідних оцінок, наданих користувачем
print('\nПочаткові оцінки:')
for i in range(len(my_ratings)):
    if my_ratings[i] > 0:
        print('Оцінка %d для фільму %s' % (my_ratings[i], movieList[i]))

Топ рекомендацій для вас:
Передбачуваний рейтинг 5.0 для фільму Entertaining Angels: The Dorothy Day Story (1996)
Передбачуваний рейтинг 5.0 для фільму Marlene Dietrich: Shadow and Light (1996)
Передбачуваний рейтинг 5.0 для фільму Someone Else's America (1995)
Передбачуваний рейтинг 5.0 для фільму Santa with Muscles (1996)
Передбачуваний рейтинг 5.0 для фільму Saint of Fort Washington, The (1993)
Передбачуваний рейтинг 5.0 для фільму Great Day in Harlem, A (1994)
Передбачуваний рейтинг 5.0 для фільму They Made Me a Criminal (1939)
Передбачуваний рейтинг 5.0 для фільму Star Kid (1997)
Передбачуваний рейтинг 5.0 для фільму Prefontaine (1997)
Передбачуваний рейтинг 5.0 для фільму Aiqing wansui (1994)
Передбачуваний рейтинг 4.6 для фільму Pather Panchali (1955)
Передбачуваний рейтинг 4.5 для фільму Anna (1996)
Передбачуваний рейтинг 4.5 для фільму Everest (1998)
Передбачуваний рейтинг 4.5 для фільму Some Mother's Son (1996)
Передбачуваний рейтинг 4.5 для фільму Maya Lin: A Strong Clear Vi