<center>
<img src="../../img/python_theme.png">
# Майнор "Интеллектуальный анализ данных" 
# Курс "Введение в программирование"
<img src="../../img/faculty_logo.jpg" height="240" width="240">

## Автор материала: Юрий Кашницкий, ФКН НИУ ВШЭ
</center>
Материал распространяется на условиях лицензии <a href="https://opensource.org/licenses/MS-RL">Ms-RL</a>. Можно использовать в любых целях, кроме коммерческих, но с обязательным упоминанием автора материала.

# <center>Семинар 11. Структуры данных хранения
## <center>Задачи

In [1]:
# Python 2 and 3 compatibility
# pip install future
from __future__ import (absolute_import, division,
                        print_function, unicode_literals)

## Top K элементов большого массива
Дан массив из $N=10^7$ целых числел. Предложите алгоритм для поиска K наименьших чисел в этом массиве при $K = 5,100,10000$. Какова сложность этих алгоритмов? [Решение](https://tproger.ru/problems/find-the-smallest-one-million-numbers-in-one-billion-numbers/) на tproger.ru

**Решение 1. Сортировка**

Можно отсортировать элементы в порядке возрастания, а затем взять первые K чисел. Это потребует $O(N\log(N))$ времени.

**Решение 2. Max-куча**

Можно использовать максимум-кучу. Мы сначала создаем кучу для первых K чисел с наибольшим элементом сверху.

Затем мы проходимся по списку. Вставляя элемент в список, удаляем наибольший элемент.

В итоге мы получим кучу, содержащую K наименьших чисел. Эффективность алгоритма $O(N\log(K))$

**Решение 3. На основе QuickSort**
Рекурсивный алгоритм на основе QuickSort, только сортировка запускается для нужной части списка.

Создадим список из $10^7$ случайных чисел от 1 до $10^7$. Найдем 10 минимальных значений с помощью max-кучи.

In [9]:
from random import randint

N, K = 1e7, 10
a_list = [randint(1, int(N)) for _ in range(int(N))]

Создаем кучу из первых K элементов. Известный трюк: max-кучу представлять min-кучей из тех же элементов, но противоположного знака. Используем стандартную реализацию heapq.

In [10]:
%%time
import heapq
h = []
for i in a_list[:K]:
    heapq.heappush(h, -i)

for j in a_list[K:]:
    heapq.heappush(h, -j)
    heapq.heappop(h)

CPU times: user 5.37 s, sys: 716 ms, total: 6.09 s
Wall time: 6.56 s


In [11]:
for _ in range(K):
    print(-1 * heapq.heappop(h), end=',')

6,4,4,4,4,4,3,3,2,2,

Сравним результат с простой сортировкой

In [12]:
%%time
sorted(a_list)[:K]

CPU times: user 13.6 s, sys: 626 ms, total: 14.3 s
Wall time: 14.4 s


[2, 2, 3, 3, 4, 4, 4, 4, 4, 6]

## Top K популярных запросов (аналог)
Дано: файл размеров 1 Тб, содержащий на каждой строчке поисковые запросы пользователей, сервер с 1 Gb RAM, 1 CPU и бесконечный HDD. Требуется придумать алгоритм, который за минимально возможное время найдет 100 самых популярных запросов (ответ нужен точный, а не приближенный). [Ответ](http://n1b-algo.blogspot.ru/2012/07/finding-top-k-elements-in-large-dataset.html) на blogspot

**Решение:** На HDD храним кучу из 100 элементов, данные читаем кусками по $\approx 1$ ГБ (чуть меньше), обновляем значения в куче. 

## Пьяница
В игре в пьяницу карточная колода раздается поровну двум игрокам. Далее они вскрывают по одной верхней карте, и тот, чья карта старше, забирает себе обе вскрытые карты, которые кладутся под низ его колоды. Тот, кто остается без карт – проигрывает.

Для простоты будем считать, что все карты различны по номиналу, а также, что самая младшая карта побеждает самую старшую карту ("шестерка берет туза").

Игрок, который забирает себе карты, сначала кладет под низ своей колоды карту первого игрока, затем карту второго игрока (то есть карта второго игрока оказывается внизу колоды).

Напишите программу, которая моделирует игру в пьяницу и определяет, кто выигрывает. В игре участвует 10 карт, имеющих значения от 0 до 9, большая карта побеждает меньшую, карта со значением 0 побеждает карту 9.

**Входные данные**

Программа получает на вход две строки: первая строка содержит 5 карт первого игрока, вторая – 5 карт второго игрока. Карты перечислены сверху вниз, то есть каждая строка начинается с той карты, которая будет открыта первой.

**Выходные данные**

Программа должна определить, кто выигрывает при данной раздаче, и вывести слово first или second, после чего вывести количество ходов, сделанных до выигрыша. Если на протяжении $10^6$ ходов игра не заканчивается, программа должна вывести слово botva.

In [None]:
from queue import Queue

first_player_cards = Queue()
second_player_cards = Queue()

for num in input().strip().split():
    first_player_cards.put(int(num))

for num in input().strip().split():
    second_player_cards.put(int(num))

def beats(card1, card2):
    """
    if card1 beats card2
    """
    if abs(card1 - card2) == 9:
        return card1 < card2
    else:
        return card1 > card2

num_rounds = 0

while not first_player_cards.empty() and not second_player_cards.empty():
    if num_rounds >= pow(10, 6):
        print("botva")
        break
    card1 = first_player_cards.get()
    card2 = second_player_cards.get()

    if beats(card1, card2):
        first_player_cards.put(card1)
        first_player_cards.put(card2)
    elif beats(card2, card1):
        second_player_cards.put(card1)
        second_player_cards.put(card2)
    num_rounds += 1
else:
    if not first_player_cards.empty():
        print("first", num_rounds, sep=" ")
    elif not second_player_cards.empty():
        print("second", num_rounds, sep=" ")