# 1) TASK1.1 : PCA from scratch

In [1]:
from sklearn import datasets

from matplotlib import pyplot as plt

%matplotlib inline

In [2]:
iris = datasets.load_iris()
X = iris.data  # we only take the first two features.
y = iris.target


## Standardizing

Перед разложением, как правило центрируют данные, чтобы признаки имели среднее=0 (иногда и дисперсию=1)

Сделаем это

In [3]:
from sklearn.preprocessing import StandardScaler
X_std = StandardScaler().fit_transform(X)


## 1 - Eigendecomposition - Вычисление собственных векторов и собственных значений

Основная идея PCA - разложение матрицы ковариации исхордных данных. Собственные вектора (eigenvectors) еще называются главными компонентами, поэтому метод еще называется "Методом Главных Компонент".

Собственные вектора определяют направления в новом пространстве признаков, а собственные числа(eigenvalues) - их амплитуду. Другмими словами, собственные значения показывают дисперсию данных вдоль конкретного направления, заданного собственным вектором.

### Вычисление ковариационной матрицы

In [4]:
## Собственно посчитаем матрицу ковариации

import numpy as np

# так как мы уже нормализовали данные, то нет смысла вычитать из столбцов среднее значение признаков
# но если бы мы этого не сделали, то нужно было бы сделать так:
# mean_vec = np.mean(X_std, axis=0)
# cov_mat = (X_std - mean_vec).T.dot((X_std - mean_vec)) / (X_std.shape[0]-1)

cov_mat = X_std.T.dot(X_std) / (X_std.shape[0]-1)

print('Covariance matrix \n%s' %cov_mat)

## и сравним с матрицей, вычисленной в numpy

print('\nNumPy covariance matrix: \n%s' %np.cov(X_std.T))

print ('\nError: ', (cov_mat - np.cov(X_std.T)).sum()/cov_mat.size)

Covariance matrix 
[[ 1.00671141 -0.11010327  0.87760486  0.82344326]
 [-0.11010327  1.00671141 -0.42333835 -0.358937  ]
 [ 0.87760486 -0.42333835  1.00671141  0.96921855]
 [ 0.82344326 -0.358937    0.96921855  1.00671141]]

NumPy covariance matrix: 
[[ 1.00671141 -0.11010327  0.87760486  0.82344326]
 [-0.11010327  1.00671141 -0.42333835 -0.358937  ]
 [ 0.87760486 -0.42333835  1.00671141  0.96921855]
 [ 0.82344326 -0.358937    0.96921855  1.00671141]]

Error:  -1.1449174941446927e-16


### Сейчас найдем собственные вектора ковариационной матрицы



In [5]:
cov_mat = np.cov(X_std.T)

eig_vals, eig_vecs = np.linalg.eig(cov_mat)

print('Eigenvectors \n%s' %eig_vecs)
print('\nEigenvalues \n%s' %eig_vals)

Eigenvectors 
[[ 0.52237162 -0.37231836 -0.72101681  0.26199559]
 [-0.26335492 -0.92555649  0.24203288 -0.12413481]
 [ 0.58125401 -0.02109478  0.14089226 -0.80115427]
 [ 0.56561105 -0.06541577  0.6338014   0.52354627]]

Eigenvalues 
[2.93035378 0.92740362 0.14834223 0.02074601]


### Singular Vector Decomposition

Хотя вычисление собственных векторов и собственных чисел ковариационной матрицы - более интуитивный способ получения главных компонент, большинство реализаций PCA под капотом выполняют SVD (более эвычислительно эффективно).

Так что давайте сделаем еще и SVD, и убедимся, что результаты получатся те ми же самыми

In [6]:
v,sigma,u = np.linalg.svd(X_std.T)
v

array([[-0.52237162, -0.37231836,  0.72101681,  0.26199559],
       [ 0.26335492, -0.92555649, -0.24203288, -0.12413481],
       [-0.58125401, -0.02109478, -0.14089226, -0.80115427],
       [-0.56561105, -0.06541577, -0.6338014 ,  0.52354627]])

## 2 - Selecting Principal Components

Цель PCA - снижение размерности путем проекции данных на направления, задаваемые собственными векторами. Они задают только направление и их длина 1, в чем и убедимся:

In [None]:
for ev in eig_vecs:
    np.testing.assert_array_almost_equal(1.0, np.linalg.norm(ev))
print('Everything ok!')


Чтобы определиться, куда проецировать данные нужно упорядочить собственные вектора в соответствии со значением собственных чисел. Вектора с наименьшими собственными числами наименее информативны, и могут быть выброшены из рассмотрения

In [None]:
# Make a list of (eigenvalue, eigenvector) tuples
eig_pairs = [(np.abs(eig_vals[i]), eig_vecs[:,i]) for i in range(len(eig_vals))]

# Sort the (eigenvalue, eigenvector) tuples from high to low
eig_pairs.sort()
eig_pairs.reverse()

# Visually confirm that the list is correctly sorted by decreasing eigenvalues
print('Eigenvalues in descending order:')
for i in eig_pairs:
    print(i[0])


После сортировки нужно определиться с количеством новых признаков. Обычно используют "explained variance", которая показывает, какое количество дисперсии в данных описывается конкретной компонентой

In [None]:
tot = sum(eig_vals)
var_exp = [(i / tot)*100 for i in sorted(eig_vals, reverse=True)]
cum_var_exp = np.cumsum(var_exp)

cum_var_exp

Первая главная компонента описывает 72.77% дисперсии данных, первые две - 95.8%, первые три - 99.48%  

In [None]:
plt.plot(range(1, len(eig_pairs)+1), cum_var_exp)

Обычно если из решаемой задачи нет понимания, сколько компонент нужно оставить (например, какой размер вектора сущности нужно получить, если PCA нужен для получения "эмбеддингов"), то следует выбирать такое количество главных компонент, которе описывает не менее 99% дисперсии данных

То есть в нашем случае хватит 3х главных компонент

Но давайте попробуем сузить до 2х, чтобы отрисовать данные на плоскости, так как PCA часто используется для визуализации данных

In [None]:
matrix_w = np.hstack((eig_pairs[0][1].reshape(4,1), 
                      eig_pairs[1][1].reshape(4,1)))

print('Matrix W:\n', matrix_w)  # truncated matrix 

## 3 - Проекция данных  в новове признаковое пространство


In [None]:
X_proj = X_std.dot(matrix_w)

Давайте посмотрим, как данные спроектировались на плоскость

In [None]:
plt.scatter(X_proj[:, 0], X_proj[:, 1], c=y, cmap=plt.cm.Set1,
            edgecolor='k')

## 4 - PCA in scikit-learn 

а теперь воспользуемся мощью компутера и пусть scikit-learn нам сам все посчитает

In [None]:
from sklearn.decomposition import PCA as sklearnPCA
sklearn_pca = sklearnPCA(n_components=2)
X_proj_sklearn = sklearn_pca.fit_transform(X_std)

In [None]:
print ('\nError: ', (X_proj_sklearn - X_proj).sum()/X_proj.size)

----------------------------------------------------------------------------------------------------------------------

# 2) TASK1.2: Рекомендательные системы и SVD разложение

Чтоо такое SVD? Это алгоритм, который аппроксимирует матрицу $R$ наилучшим способом путем разложения на 3 матрицы $V$, $\Sigma$ , $U^{T}$

$$\begin{equation}
R = V\Sigma U^{T}
\end{equation}$$

где 
- $R$ - матрица оценок пользователей различным фильмам (user-rating), 

- $V$ - матрица "пользователь - скрытые переменные". Эти  скрытые переменные (если интуитивно) могут отражать какие-то характеристики фильма. Например, одной из таких характеристик может быть жанр. Матрица $V$ показывает, насколько пользователю нравятся те или иные характеристики фильма, неявно выраженные через разложение. Заметим, что количество скрытых переменных - это и есть то количество компонент, которое мы хотим взять для аппроксимации исходной матрицы.
 
- $\Sigma$  - диагональная матрица, на главной диагонали которой стоят квадраты собственных чисел матрицы $R^TR$. Интуитивно показывает веса того, насколько важна та или иная скрытая переменная

- $U^{T}$ - матрица "фильм - скрытые переменные". Показывает, насколько тот или иной фильм отражает ту или иную скрытую переменную. Например, вес компонента, отражающий принадлежность фильма "Эйс Вентура: розыск домашних животных" к скрытому признаку "Жанр - триллер" - будет невелик.


Помним, что мы можем получить полное разложение и восттановить исходную матрицу обратно, но нам это неинтересно. Давайте возьмем топ $k$ комонент для разложения.

In [None]:
# Загрузим данные
import pandas as pd
import numpy as np

ratings_list = [i.strip().split("::") for i in open('data/ml-1m/ratings.dat', 'r').readlines()]
users_list = [i.strip().split("::") for i in open('data/ml-1m/users.dat', 'r').readlines()]
movies_list = [i.strip().split("::") for i in open('data/ml-1m/movies_enc.dat', 'r').readlines()]

In [None]:
ratings = np.array(ratings_list)
users = np.array(users_list)
movies = np.array(movies_list)

In [None]:
ratings_df = pd.DataFrame(ratings_list, columns = ['UserID', 'MovieID', 'Rating', 'Timestamp'], dtype = int)
movies_df = pd.DataFrame(movies_list, columns = ['MovieID', 'Title', 'Genres'])
movies_df['MovieID'] = movies_df['MovieID'].apply(pd.to_numeric)

Взлгянем на формат данных

In [None]:
movies_df.head()

In [None]:
ratings_df.head()

Сведем две таблицы в одну, чтобы по строкам были пользователи, по столбцам - фильмы, а на пересечении - оценка пользователя фильму.
Если этот фильм не оценивался пользователем - заполним нулем.

In [None]:
R_df = ratings_df.pivot(index = 'UserID', columns ='MovieID', values = 'Rating').fillna(0)
R_df.head()

Как правило, перед применением SVD и PCA данные надо центрировать

Давайте нормализуем матрицу per-user, вычтя для каждого пользователя среднее всех его оценок для фильма

In [None]:
R = R_df.as_matrix()
user_ratings_mean = np.mean(R, axis = 1)  # mean per user
R_demeaned = R - user_ratings_mean.reshape(-1, 1)

## Singular Value Decomposition


Будем использовать ф-ю scipy `svds` для svd разложения. Выберем 50 компонент


In [None]:
%%time
from scipy.sparse.linalg import svds
V, sigma, Ut = svds(R_demeaned, k=50)

In [None]:
V.shape, sigma.shape, Ut.shape

$\Sigma$ - вернулся как вектор квадратов собственных чисел. Давайте сконвертим его в диагональную матрицу

In [None]:
sigma = np.diag(sigma)
sigma.shape

## Получим аппроксимированное значение матрицы $R$ для матрицы с рекомендациями

In [None]:
all_user_predicted_ratings = np.dot(np.dot(V, sigma), Ut)
all_user_predicted_ratings += user_ratings_mean.reshape(-1, 1) # вернем обратно средние оценки per-user
all_user_predicted_ratings -= all_user_predicted_ratings.min(axis=1).reshape(-1, 1)  # пусть не будет отрицательных оценок (начинаются от 0)

In [None]:
predicted_ratings_shifted = []
for user_ratings in all_user_predicted_ratings:
    if user_ratings.max() > 5:
        user_ratings /= user_ratings.max()*5
    
    predicted_ratings_shifted.append(user_ratings)
predicted_ratings_shifted = np.array(predicted_ratings_shifted)

По-хорошему, количество компонент не выбирается вслепую. Необходимо разделить данные на train и valid, и оптимизировать RMSE(predicted, true) на валидационном наборе данных, таким образом подобрав оптимальное значение $k$

## Попробуем порекомендовать что-нибудь кому-нибудь

Давайте сделаем предсказания для конкретного пользователя. Среди тех фильмов, для которых нет оценок у данного пользователя, выведем топ фильмов с максимальным предсказанным рейтингом.

In [None]:
preds_df = pd.DataFrame(all_user_predicted_ratings, columns = R_df.columns)
preds_df.head()

In [None]:
def get_users_ratings_history(userID, original_ratings_df, movies_df):
     # Get the user's data and merge in the movie information.
    user_data = original_ratings_df[original_ratings_df.UserID == (userID)]
    user_full = (user_data.merge(movies_df, how = 'left', left_on = 'MovieID', right_on = 'MovieID').
                     sort_values(['Rating'], ascending=False))
    return user_full

In [None]:
def recommend_movies(userID, preds_df, movies_df, user_history, original_ratings_df, num_recommendations=10):
    user_row_number = userID - 1 # UserID starts at 1, not 0
    sorted_user_predictions = preds_df.iloc[user_row_number].sort_values(ascending=False)
    sorted_user_predictions = pd.DataFrame(sorted_user_predictions).reset_index()
    sorted_user_predictions = sorted_user_predictions.rename(columns={user_row_number : "Score"})
    
    not_rated_for_user = movies_df[~movies_df['MovieID'].isin(user_history['MovieID'])]
    full_not_rated_predictions = not_rated_for_user.merge(sorted_user_predictions, how = 'left', left_on = 'MovieID', right_on = 'MovieID')
    full_not_rated_predictions = full_not_rated_predictions.sort_values('Score', ascending = False)
    top_best_rated_predictions = full_not_rated_predictions.iloc[:num_recommendations, :-1]
    return top_best_rated_predictions

## Посмотрим, каким кино интересуется пользователь с номером 837 и порекомендуем ему что-нибудь

In [None]:
user_id = 837

In [None]:
user_history = get_users_ratings_history(user_id, ratings_df, movies_df)
user_history[:10]

In [None]:
recommend_movies(user_id, preds_df, movies_df, user_history, ratings_df, 10)

Выглядит неплохо!

Хотя мы вообще не использовали такие признаки, как жанр фильма, модель смогла ухватить эти признаки в качестве скрытых, и предложить пользователю похожее кино по его вкусу.

## А давайте еще посмотрим, что у нас скрывается внутри матрицы $U$

Как мы знаем, матрица $U$ хранит вектора для фильмов.

Поищем фильмы, вектора которых являются ближайшими по евклидову расстоянию к тому фильму, айдишник которого мыф передадим в качестве запроса

In [None]:
def get_closest_movies(movie_id, Ut, R_df, top=10):
    print(movies_df[movies_df.MovieID == movie_id])
    
    U = Ut.transpose()
    vec = U[movie_id-1]  # movie_is starts from 1
    vec_ = np.array([vec for _ in range(U.shape[0])])
    diff = np.sqrt((U - vec_)**2)
    closest_movie_idx = np.argsort(diff.sum(axis=1))[1:top+1]  # не берем первый элемент, потому что это тот же самый фильм
    true_idx = R_df.columns[closest_movie_idx]
    closest_movies = pd.DataFrame(true_idx)
    closest_movies = closest_movies.merge(movies_df, left_on="MovieID", right_on="MovieID")
    print("--------------")

    print("Closest movies")
    print(closest_movies)
    

In [None]:
get_closest_movies(1, Ut, R_df, 10)

Похоже на что-то осмысленное!

Здорово, что SVD вообще никак не используя информацию о жанре, научился группировать похожие фильмы. 

Как это стало возможно?

### Задания
1) Реализуйте поиск ближайших по косинусному расстоянию векторов (обычно вектора сравнивают именно так).  Отличаются ли результаты?

2) Выполните поиск ближайших (по евклидовой метрике) 5 пользователей к заданному пользователю с user_id = 837. Для пользователя с каким user_id у пользователя с user_id=837 больше всего общих фильмов, оцененных на 5?