## Основы BigData
**Задание:**
Напиши псевдокодом последовательность расчета word count в парадигме map-reduce.

Python-like псевдокод:

In [1]:
def map(words):
    for word in words:
        yield word, 1

        
def reduce(word, values):
    yield word, sum(values)

На этапе **Map** функция превращает входной текст в набо пар (слово, 1). Затем на этапе **Shuffle** эти пары без участия пользователя превращаются в пары вида (слово, \[1, 1, 1, ..., 1\]). На этапе **Reduce** эти единицы суммируются, и мы получаем ответ.

## Основы баз данных
**Задание 1.** 
Перечисли способы получить количество записей в таблице

1. SELECT COUNT(*) FROM TABLE
2. SELECT SUM(1) FROM TABLE

**Задание 2.**
Выполнится ли этот запрос?
SELECT 
     order_id,
     order_code,
     SUM(order_value)
FROM 
     orders
GROUP BY
     order_id


Данный запрос не выполнится и выдаст ошибку, поскольку 'order_code' не содержится ни в самой агрегирующей функции, ни в выражении GROUP BY.

## Основы программирования
**Задание 1.**
Дан массив целых чисел nums и целое число target. Написать функцию, возвращающую индексы элементов, дающих в сумме число target.

Формулировка задания не до конца ясна сходу, я понимаю его примерно так: 
"Дан массив целых чисел nums и число target. Необходимо найти все пары чисел (n1, n2) из данного массива, сумма которых равна target."

Пусть n - размер исходного массива, target - число, которое необходимо получить.

Можно использовать 3 подхода к решению данной задачи:
1. Bruteforce алгоритм (временная сложность - О(n^2))
Перебор всех возможных комбинаций во вложенных циклах. Самый простой подход, который, однако, будет работать очень медленно при больших размерах массива.
2. Сортировка и бинарный поиск (временная сложность - О(n log n))
Сначала исходный массив сортируется - О(n log n). 
Затем для каждого x бинарным поиском ищется (target - x) - O(log n) для каждого x. Cуммарно - O(n log n)
3. Использование хэш-таблицы. (временная сложность - О(n))
В таком случае при достаточно хорошей хэш-функции поиск значения в таблице занимает O(1). Таким образом, так же, как и в прошлом варианте, для каждого x производится поиск (target - x), но уже за константное время. Суммарно - O(n)

Реализуем самый лучший вариант алгоритма:

In [2]:
def find_two(nums, target):
    # будем хранить в словаре пары вида (значение, список индексов), 
    # поскольку одинаковые значения могут повтряться в массиве несколько раз, а нам нужны все кобинации
    d = {}
    ans = []
    for i, n in enumerate(nums):
        m = target - n
        
        if m in d:
            for num in d[m]:
                ans.append((num, i))
        if n not in d:
            d[n] = []
        d[n].append(i)  
    
    return ans

**Задание 2.** 
Предполагается, что в каждом массиве имеется не больше одной пары дающих в сумме заданное число target. Нельзя использовать один и тот же элемент дважды.

Данное задание практически полностью повторяет предыдущее, за исключением того, что в массиве не больше одного решения задачи. В этом случае подходы к решению не меняются, за исключением того, что сразу после нахождения нужной комбинации функция прекращает свою работу и возвращает ответ.

Будем так же, как и в прошлой задаче, выводить индексы элементов, которые в сумме дают target.

In [3]:
def twoSum(nums, target):
    # будем хранить в словаре пары вида (значение, индекс в массиве)
    d = {}
    for i, n in enumerate(nums):
        m = target - n
        # если искомое значение уже есть в хэш-таблице, возвращаем пару индексов, если нет - добавляем значение в таблицу
        if m in d:
            return [d[m], i]
        else:
            d[n] = i