<a href="https://colab.research.google.com/github/andrew-veriga/MathForML/blob/master/PageRank.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# PageRank
В этом блокноте вы расширите свои знания о собственных векторах и собственных значениях, изучая алгоритм PageRank. Блокнот состоит из двух частей: первая представляет собой рабочий лист, который поможет вам быстрее понять, как работает алгоритм - здесь мы рассмотрим микроинтернет с менее чем 10 веб-сайтами и посмотрим, что он делает и что может пойти не так. Второй - это оценка, которая проверяет ваше применение собственной теории к этой проблеме путем написания кода и вычисления рейтинга страницы в большой сети, представляющей подсекцию Интернета.

## Part 1 - Worksheet
### Introduction

PageRank (разработанный Ларри Пейджем и Сергеем Брином) произвел революцию в веб-поиске, создав ранжированный список веб-страниц на основе базовых возможностей подключения к сети. 

Алгоритм PageRank основан на идеальном случайном веб-серфере, который при переходе на страницу переходит на следующую страницу, щелкая ссылку. Пользователь имеет равную вероятность щелкнуть любую ссылку на странице и, достигнув страницы без ссылок, имеет равную вероятность перехода на любую другую страницу, введя ее URL. Кроме того, пользователь может иногда выбирать случайный URL вместо перехода по ссылкам на странице. PageRank - это ранжированный порядок страниц от наиболее к наименее вероятной странице, которую будет просматривать пользователь.


In [None]:
!wget https://github.com/andrew-veriga/MathForML/raw/master/MathForMLAssignes.zip
!unzip -u MathForMLAssignes.zip
!rm MathForMLAssignes.zip

In [None]:
# Before we begin, let's load the libraries.
%pylab notebook
import numpy as np
import numpy.linalg as la
from readonly.PageRankFunctions import *
np.set_printoptions(suppress=True)

### PageRank как задача линейной алгебры
Представьте себе микроинтернет в котором есть только 6 вебсайтов (**A**vocado, **B**ullseye, **C**atBabel, **D**romeda, **e**Tings, and **F**aceSpace).
Каждый веб-сайт ссылается на некоторые другие, и все они образуют сеть, как показано на рисунке.

![A Micro-Internet](https://github.com/andrew-veriga/MathForML/raw/master/internet.png "A Micro-Internet")

Принцип построения PageRank заключается в том, что важные веб-сайты будут ссылаться на важные веб-сайты.
Этот несколько рекурсивный принцип ляжет в основу нашей идеи.

Представьте себе 100 *Прокрастинирующих Патов* в нашем микро-Интернете, каждый просматривает один веб-сайт в один момент времени.

Каждую минуту Паты переходят на своем сайте по ссылке на другой сайт в микроинтернет.

Через некоторое время веб-сайты, на которые больше всего ссылаются, будут посещать больше Патов, и в конечном итоге на каждой минуте вместо одного Пата, покидающего веб-сайт, будет входить другой, сохраняя общее количество Патов на каждом веб-сайте постоянным.
PageRank - это просто рейтинг веб-сайтов по тому, сколько на них отметок в конце этого процесса.

Мы представляем количество Патов на каждом веб-сайте вектором,
$$\mathbf{r} = \begin{bmatrix} r_A \\ r_B \\ r_C \\ r_D \\ r_E \\ r_F \end{bmatrix}$$
И пусть количество Патов на каждом веб-сайте в минуту $ i + 1 $ выводится из количества Патов в минуту $ i $ посредством преобразования матрицы.


$$ \mathbf{r}^{(i+1)} = L \,\mathbf{r}^{(i)}$$
с матрицей $L$, имеющей вид,
$$ L = \begin{bmatrix}
L_{A→A} & L_{B→A} & L_{C→A} & L_{D→A} & L_{E→A} & L_{F→A} \\
L_{A→B} & L_{B→B} & L_{C→B} & L_{D→B} & L_{E→B} & L_{F→B} \\
L_{A→C} & L_{B→C} & L_{C→C} & L_{D→C} & L_{E→C} & L_{F→C} \\
L_{A→D} & L_{B→D} & L_{C→D} & L_{D→D} & L_{E→D} & L_{F→D} \\
L_{A→E} & L_{B→E} & L_{C→E} & L_{D→E} & L_{E→E} & L_{F→E} \\
L_{A→F} & L_{B→F} & L_{C→F} & L_{D→F} & L_{E→F} & L_{F→F} \\
\end{bmatrix}
$$
где столбцы представляют вероятность *ухода* с веб-сайта на любой другой веб-сайта, а сумма равна единице.
Строки определяют, вероятность *входа* на веб-сайт с любого другого, и их сумма не должна равняться единице.
Долгое время поведение этой системы - это когда $ \mathbf{r}^{(i+1)} = \mathbf{r}^{(i)}$, поэтому мы опустим здесь верхние индексы, и это позволяет нам писать,
$$ L \,\mathbf{r} = \mathbf{r}$$
 
которое является уравнением на собственные значения для матрицы $L$ с собственным значением 1 (это гарантируется вероятностной структурой матрицы $L$)

Заполните матрицу $ L $ ниже, в которой не указан столбец для веб-сайта *FaceSpace* (**F**).

Помните, что это вероятность ухода с соотвествующего столбцу веб-сайта на другой, поэтому каждый столбец в сумме должен равняться единице (путем масштабирования по количеству ссылок).

In [None]:
# RЗаменить ??? здесь с вероятностью перехода по ссылке на каждый веб-сайт при выходе с веб-сайта F (FaceSpace).
L = np.array([[0,   1/2, 1/3, 0, 0,   ??? ],
              [1/3, 0,   0,   0, 1/2, ??? ],
              [1/3, 1/2, 0,   1, 0,   ??? ],
              [1/3, 0,   1/3, 0, 1/2, ??? ],
              [0,   0,   0,   0, 0,   ??? ],
              [0,   0,   1/3, 0, 0,   ??? ]])

В принципе, мы могли бы использовать библиотеку линейной алгебры, как показано ниже, для вычисления собственных значений и векторов.

И это сработает для небольшой системы. Но для больших систем это становится неуправляемым.

А поскольку нас интересует только главный собственный вектор (тот, который имеет наибольшее собственное значение, которое в данном случае будет равно 1), мы можем использовать метод *степенной итерации*, который будет лучше масштабироваться, и он быстрее для больших систем.

Используйте приведенный ниже код, чтобы узнать рейтинг страницы для этого микроинтернета.

In [None]:
eVals, eVecs = la.eig(L) # Возвращает собственные вектор и значение
order = np.absolute(eVals).argsort()[::-1] # Сортирует их по собственным значениям
eVals = eVals[order]
eVecs = eVecs[:,order]

r = eVecs[:, 0] # Присваивает r главный собственный вектор
100 * np.real(r / np.sum(r)) # приводит сумму собственных векторов к единице и умножает на количество прокрастинирующих Патов

Из этого списка мы можем увидеть количество откладываний на потом, которые мы ожидаем найти на каждом веб-сайте спустя долгое время.
отсортированный по убыванию * популярности * (на основе этого показателя), рейтинг PageRank этого микроинтернета составляет:

**C**atBabel, **D**romeda, **A**vocado, **F**aceSpace, **B**ullseye, **e**Tings
 
Смотря на схему микро-интернета, вы этого ожидали?
Убедитесь, что это разумный рейтинг: страницы выглядят важными, судя по количеству ссылок на них.

Давайте теперь попробуем получить тот же результат, используя метод Power-Iteration, который был рассмотрен в лекции.
Этот метод будет намного лучше при работе с большими системами.

Сначала давайте настроим наш начальный вектор, $\mathbf{r}^{(0)}$, 
так, чтобы у нас были 100 прокрастинирующих Патов, равномерно распределенных по всем нашим 6 веб-сайтам.

In [None]:
r = 100 * np.ones(6) / 6 # Устанавливает этот вектор (6 записей размером 1/6 × 100 каждая)
r # Показывает его значение

Затем давайте обновим вектор до следующей минуты с помощью матрицы $L$.
Выполняйте следующую ячейку несколько раз, пока ответ не стабилизируется.

In [None]:
r = L @ r # Применить преобразование L к r
r # Показать его значение
# Повторно запустите эту ячейку несколько раз, чтобы получить правильный ответ.

Мы можем автоматизировать применение этой матрицы несколько раз следующим образом:

In [None]:
r = 100 * np.ones(6) / 6 # обновить этот вектор единицами (6 записей со значениями = 1/6 × 100 каждая)
for i in np.arange(100) : # повторить 100 раз
    r = L @ r
r

Или, что правильнее, мы можем продолжать цикл, пока не достигнем требуемой точности.

In [None]:
r = 100 * np.ones(6) / 6 # обновить этот вектор единицами (6 записей со значениями = 1/6 × 100 каждая)
lastR = r
r = L @ r
i = 0
while la.norm(lastR - r) > 0.01 :
    lastR = r
    r = L @ r
    i += 1
print(str(i) + " iterations to convergence.")
r

Посмотрите, порядок PageRank устанавливается довольно быстро, и вектор сходится к значению, которое мы вычислили ранее, после нескольких десятков повторов.

Поздравляю! Вы только что рассчитали свой первый PageRank!

### Параметр демпфирования

Система, которую мы только что изучили, довольно быстро пришла к правильному ответу. Давайте рассмотрим расширение нашего микро-интернета, в котором что-то начинает идти не так.

Допустим, в микроинтернет добавлен новый веб-сайт: **G**eoff.
Этот веб-сайт связан с **F**aceSpace  и ссылается только на себя.

![Расширенный микро-интернет](https://github.com/andrew-veriga/MathForML/raw/master/internet2.png "An Expanded Micro-Internet")

Интуитивно понятно, что только *FaceSpace*, который находится в нижней половине рейтинга страницы, ссылается на этот веб-сайт среди двух других, на которые он ссылается,
поэтому мы можем ожидать, что у сайта *Geoff* будет соответственно низкий рейтинг PageRank.

Создайте новую матрицу $L$ для расширенного микро-интернета и используйте Power-Iteration для вектора Прокрастинирующий Пат.
Посмотрим, что произойдет…

In [None]:
# Мы назовем её L2, чтобы отличать от предыдущей L
L2 = np.array([[0,   1/2, 1/3, 0, 0,   ???, 0 ],
               [1/3, 0,   0,   0, 1/2, ???, 0 ],
               [1/3, 1/2, 0,   1, 0,   ???, 0 ],
               [1/3, 0,   1/3, 0, 1/2, ???, 0 ],
               [0,   0,   0,   0, 0,   ???, 0 ],
               [0,   0,   1/3, 0, 0,   ???, 0 ],
               [0,   0,   0,   0, 0,   ???, 1 ]])

In [None]:
r = 100 * np.ones(7) / 7 # задать начальный единичный вектор (7 записей со значениями = 1/7 × 100 каждая)
lastR = r
r = L2 @ r
i = 0
while la.norm(lastR - r) > 0.01 :
    lastR = r
    r = L2 @ r
    i += 1
print(str(i) + " итераций до схождения.")
r

Что-то тут не очень. Похоже, что *Джефф* забирает весь трафик в микро-интернете и каким-то образом занимает верхние позиции в рейтинге страниц.
Такое поведение можно понять, потому что как только Пэт попадает на сайт *Джеффа*, он не может покинуть его, так как все ссылки ведут обратно на Джеффа.

Чтобы бороться с этим, мы можем добавить небольшую вероятность того, что прокрастинирующие Паты не переходят по какой-либо ссылке на веб-странице, а вместо этого посещают веб-сайт в микроинтернете случайным образом.
Пусть вероятность того, что они перейдут по ссылке, составляет $d$, и поэтому вероятность выбора случайного веб-сайта составляет $1-d$.
Мы можем использовать новую матрицу, чтобы выяснить, где каждую минуту бывает Пэт.

That's no good! *Geoff* seems to be taking all the traffic on the micro-internet, and somehow coming at the top of the PageRank.
This behaviour can be understood, because once a Pat get's to *Geoff's* Website, they can't leave, as all links head back to Geoff.

To combat this, we can add a small probability that the Procrastinating Pats don't follow any link on a webpage, but instead visit a website on the micro-internet at random.
We'll say the probability of them following a link is $d$ and the probability of choosing a random website is therefore $1-d$.
We can use a new matrix to work out where the Pat's visit each minute.
$$ M = d \, L + \frac{1-d}{n} \, J $$
where $J$ is an $n\times n$ matrix where every element is one.

If $d$ is one, we have the case we had previously, whereas if $d$ is zero, we will always visit a random webpage and therefore all webpages will be equally likely and equally ranked.
For this extension to work best, $1-d$ should be somewhat small - though we won't go into a discussion about exactly how small.

Let's retry this PageRank with this extension.

In [None]:
d = 0.5 # Feel free to play with this parameter after running the code once.
M = d * L2 + (1-d)/7 * np.ones([7, 7]) # np.ones() is the J matrix, with ones for each entry.

In [None]:
r = 100 * np.ones(7) / 7 # Sets up this vector (6 entries of 1/6 × 100 each)
lastR = r
r = M @ r
i = 0
while la.norm(lastR - r) > 0.01 :
    lastR = r
    r = M @ r
    i += 1
print(str(i) + " iterations to convergence.")
r

This is certainly better, the PageRank gives sensible numbers for the Procrastinating Pats that end up on each webpage.
This method still predicts Geoff has a high ranking webpage however.
This could be seen as a consequence of using a small network. We could also get around the problem by not counting self-links when producing the L matrix (an if a website has no outgoing links, make it link to all websites equally).
We won't look further down this route, as this is in the realm of improvements to PageRank, rather than eigenproblems.

You are now in a good position, having gained an understanding of PageRank, to produce your own code to calculate the PageRank of a website with thousands of entries.

Good Luck!

## Part 2 - Assessment
In this assessment, you will be asked to produce a function that can calculate the PageRank for an arbitrarily large probability matrix.
This, the final assignment of the course, will give less guidance than previous assessments.
You will be expected to utilise code from earlier in the worksheet and re-purpose it to your needs.


In [None]:
# PACKAGE
# Here are the imports again, just in case you need them.
# There is no need to edit or submit this cell.
import numpy as np
import numpy.linalg as la
from readonly.PageRankFunctions import *
np.set_printoptions(suppress=True)

In [None]:
# GRADED FUNCTION
# Complete this function to provide the PageRank for an arbitrarily sized internet.
# I.e. the principal eigenvector of the damped system, using the power iteration method.
# (Normalisation doesn't matter here)
# The functions inputs are the linkMatrix, and d the damping parameter - as defined in this worksheet.
def pageRank(linkMatrix, d) :
    n = linkMatrix.shape[0]
    
    
    return r


## Test your code before submission
To test the code you've written above, run the cell (select the cell above, then press the play button [ ▶| ] or press shift-enter).
You can then use the code below to test out your function.
You don't need to submit this cell; you can edit and run it as much as you like.

In [None]:
# Use the following function to generate internets of different sizes.
generate_internet(5)

In [None]:
# Test your PageRank method against the built in "eig" method.
# You should see yours is a lot faster for large internets
L = generate_internet(10)

In [None]:
pageRank(L, 1)

In [None]:
# Do note, this is calculating the eigenvalues of the link matrix, L,
# without any damping. It may give different results that your pageRank function.
# If you wish, you could modify this cell to include damping.
# (There is no credit for this though)
eVals, eVecs = la.eig(L) # Gets the eigenvalues and vectors
order = np.absolute(eVals).argsort()[::-1] # Orders them by their eigenvalues
eVals = eVals[order]
eVecs = eVecs[:,order]

r = eVecs[:, 0]
100 * np.real(r / np.sum(r))

In [None]:
# You may wish to view the PageRank graphically.
# This code will draw a bar chart, for each (numbered) website on the generated internet,
# The height of each bar will be the score in the PageRank.
# Run this code to see the PageRank for each internet you generate.
# Hopefully you should see what you might expect
# - there are a few clusters of important websites, but most on the internet are rubbish!
%pylab notebook
r = pageRank(generate_internet(100), 0.9)
plt.bar(arange(r.shape[0]), r);