## Домашнее задание 6

Дедлайн: 1 июня 2020 23:59

В этом задании требуется реализовать инструмент для нахождения кратчайшего пути от одной статьи в русской Википедии до другой. 

За это задание можно получить максимум 13 баллов.

## Часть 1 (1 балл)

Ниже приведена функция, принимающая на вход HTML-код страницы Википедии и отдающая все ссылки на другие статьи из русской Википедии, содержащиеся в этом коде.

У этой функции есть как минимум два недостатка:

* Если мы возьмем результат работы этой функции и отберем только уникальные ссылки, у нас может произойти ситуация, когда в нашем множестве ссылок есть как ссылка вида `/wiki/какая-то_статья`, так и `/wiki/какая-то_статья#какой-то_подраздел` (хотя на самом деле это одна и та же статья).
* Эта функция отдает ссылки не только на статьи, но и на служебные страницы (`/wiki/Служебная:Свежие_правки`) и, например, файлы (`/wiki/Файл:Calabi_yau_formatted.svg`). Эти ссылки нам не нужны.

Доработайте функцию, исправив перечисленные недостатки.

In [2]:
from bs4 import BeautifulSoup # pip install bs4
from typing import List
import requests # pip install requests
import urllib

def links_from_text(text):
    soup = BeautifulSoup(text)
    content = soup.find("div", {"id": "mw-content-text"})
    
    links = content.find_all("a")
    
    for link in links:
        href = link.get('href', '')
        
        if href.startswith('/wiki'): 
            yield href 
            

start_url = 'https://ru.wikipedia.org/wiki/Теория струн'

for url in links_from_text(requests.get(start_url).text):
    print(urllib.parse.unquote(url))

/wiki/Файл:Calabi_yau_formatted.svg
/wiki/Теория_суперструн
/wiki/Теория_суперструн
/wiki/Теория_бозонных_струн
/wiki/М-теория
/wiki/Гетеротическая_струна
/wiki/Голографический_принцип
/wiki/Квантовая_струна
/wiki/Брана
/wiki/Пространство_Калаби_—_Яу
/wiki/D-брана
/wiki/E₈_(математика)
/wiki/Суперсимметрия
/wiki/Супергравитация
/wiki/Квантовая_гравитация
/wiki/Виттен,_Эдвард
/wiki/Венециано,_Габриеле
/wiki/Грин,_Брайан_Рэндолф
/wiki/Гросс,_Дейвид
/wiki/Каку,_Митио
/wiki/Малдасена,_Хуан
/wiki/Поляков,_Александр_Маркович
/wiki/Сасскинд,_Леонард
/wiki/Шварц,_Джон_Генри
/wiki/Портал:Физика
/wiki/Теоретическая_физика
/wiki/Элементарная_частица
/wiki/Квантовая_струна
/wiki/Квантовая_механика
/wiki/Теория_относительности
/wiki/Квантовая_гравитация
/wiki/Файл:Point&string.svg
/wiki/Файл:Point&string.svg
/wiki/Диаграммы_Фейнмана
/wiki/Стандартная_модель
/wiki/Фундаментальные_взаимодействия
/wiki/Квантовая_струна
/wiki/Планковская_длина
/wiki/Квантовая_теория_поля
/wiki/Перенормировка_(метод)
/w

## Часть 2 (5 баллов)

Реализуйте заданную функцию.

Под путем подразумевается последовательность ссылок на статьи из **ru.wikipedia.org** (то есть нам не подходит случай, когда страница A из ru.wikipedia.org ссылается на страницу B из en.wikipedia.org, а та, в свою очередь, на страницу C из ru.wikipedia.org).

Проще всего реализовать функцию через поиск в ширину (https://en.wikipedia.org/wiki/Breadth-first_search):

1. Начинаем из исходной статьи
2. Отбираем все статьи, куда она ссылается
3. Если есть ссылка на конечную статью - завершаем
4. Если нет ссылки на конечную статью - отбираем все статьи, куда они ссылаются **и где мы еще не были**
5. Если есть ссылка на конечную статью - завершаем
6. Если нет - повторяем до победного

Чтобы вернуть сам путь, а не только его длину, вам нужно хранить отношения между статьями. Придумайте структуру, которая позволит быстро восстанавливать путь.

Запросы к серверу должны выполняться параллельно (максимальное количество одновременно бегущих запросов задаётся параметром `n_threads`). Вы можете использовать любой из доступных инструментов (например, практически везде есть некоторый объект Pool с функцией map):

* threading
* multiprocessing
* asyncio
* gevent


При выборе инструмента нужно подумать (https://habr.com/ru/post/421625/). Асинхронные библиотеки и threading показывают высокую производительность при выполнении HTTP-запросов (поскольку эта задача нагружает не процессор, а устройства ввода-вывода, то есть это I/O bound задача). Но после выполнения запросов нужно извлечь ссылки из текстов страниц, а это, вообще-то, достаточно вычислительно сложная задача (все библиотеки для парсинга HTML, по сути, превращают строку с HTML-кодом во внутреннее представление дерева элементов страницы).

Поэтому если вы будете параллелить еще и парсинг HTML (а это происходит внутри функции `links_from_text`, когда мы создаем класс BeautifulSoup), это нужно делать либо с помощью multiprocessing (чтобы задача параллелилась на разные ядра процессора), либо не параллелить вообще и просто доставать ссылки последовательно в один поток.


In [None]:
def shortest_path(from_article: str, to_article: str, n_threads: int) -> List[str]:
    pass

assert len(shortest_path('Теория_струн', 'Теория_струн', 10)) == 0
assert shortest_path('Теория_струн', 'Теоретическая_физика') == ['Теоретическая_физика'] # не включайте исходную статью в путь
assert len(shortest_path('Теория_струн', 'Партия жуликов и воров', 10)) > 0

## Часть 3 (2 балла)

### Немного про аргументы командой строки

Они позволяют задавать параметры для выполнения программы прямо в терминале. Например, когда вы выполняете команду `git add file.txt`, вы на самом деле вызываете команду `git`, передавая ей **позиционные** аргументы (поскольку порядок их перечисления важен для работы программы) `add` и `file.txt`. **Непозиционные** аргументы передаются, например, так:

`python3 my_script.py --first_arg=123 --second_arg=1111`

причем мы можем поменять их местами при вызове команды и в логике работы программы ничего не изменится:

`python3 my_script.py --second_arg=1111 --first_arg=123`


### Задание

1. Закройте Jupyter и откройте PyCharm.
2. Используйте библиотеку `click` (https://click.palletsprojects.com/en/7.x/), чтобы написать .py-скрипт, принимающий исходную и конечную статью как аргументы командной строки. Пример того, как программа должна вызываться:

`python3 wikidistance.py --to=Теоретическая_физика --from=Теория_струн` (если вы используете непозиционные аргументы)

`python3 wikidistance.py Теория_струн Теоретическая_физика` (если вы используете позиционные аргументы, вы должны перечислять их в определенном порядке)

## Часть 4 (2 балла)

Доработайте функцию и программу, чтобы она выводила **все пути** минимальной длины.

## Часть 5 (бонусная; +3 балла к итогу)

NB: Если вы выполняете эту часть, то все равно сдайте отдельно программу, полученную на этапе 3 или 4.

Доработайте функцию и программу, чтобы программа принимала на вход путь до JSON-файла с заданием. Пример вызова:

`python3 wikidistance_pro_edition.py ~/path/to/task.json ~/path/to/output.json`

Здесь в файле, который находится по пути `ваша_домашняя_папка/path/to/task.json`, лежит JSON-файл следующего вида:

```json
[
{"from": "Теория_струн", "to": "Теоретическая_физика"},
{"from": "Теория_всего_(философия)", "to": "Теория_струн"}
]
```

Программа должна обходить Википедию до тех пор, пока не найдет все кратчайшие маршруты между всеми переданными парами статей. Она должна использовать общую структуру данных для всех пар (чтобы в итоге сделать меньше запросов к серверу, чем если бы мы находили путь для каждой из пар по-отдельности).

Программа должна положить в выходной файл, путь к которому задается параметром командой строки (можно использовать file arguments из click https://click.palletsprojects.com/en/7.x/arguments/), JSON вида:

```json
[
{"from": "Теория_струн", "to": "Теоретическая_физика", "all_shortest_paths": [["a", "b", "Теоретическая_физика"]]},
{"from": "Теория_всего_(философия)", "to": "Теория_струн", "all_shortest_paths": [["с", "b", "Теория_струн"], ["d", "b", "Теория_струн"]]}
]
```

Здесь в `all_shortest_paths` лежит список списков строк - все возможные кратчайшие пути.


Основной челлендж этой части - аккуратно реализовать работу с представлением графа Википедии.

## Дополнительные советы и требования

* PEP8 ¯¯\\\_(ツ)\_/¯¯
* Предполагается, что исходная и конечная статья существуют (не требуется это явно проверять, но если очень хочется, то можно).
* Если при загрузке какой-то из страниц возникает ошибка, нужно повторить запрос. Если это происходит слишком часто, возможно, вы DDoS-ите сайт запросами и стоит уменьшить количество потоков.
* Чтобы объединить несколько итераторов, можно использовать функцию https://docs.python.org/3.8/library/itertools.html#itertools.chain (и вообще в этом модуле есть много всего полезного)
* При тестировании не используйте слишком далёкие по смыслу статьи - есть вероятность, что вы будете очень долго ждать выполнения программы (http://www.machinelearning.ru/wiki/index.php?title=%D0%9F%D1%80%D0%BE%D0%BA%D0%BB%D1%8F%D1%82%D0%B8%D0%B5_%D1%80%D0%B0%D0%B7%D0%BC%D0%B5%D1%80%D0%BD%D0%BE%D1%81%D1%82%D0%B8)