# Основы BigData

#### Задача:
Напиши псевдокодом последовательность расчета word count в парадигме map-reduce.


#### Решение:
парадигма Map-Reduce состоит из двух отсновых частей:

1. map - разделение данных по вычислительным машинам и работа с этими данными по отдельности

2. reduce - сбор результатов вычислений воедино

Предположим, что у нас есть несколько документов doc_id с текстом, нужно подсчитать количество слов, тогда в парадигме map-reduce "код" будет выглядеть следующим образом:



In [None]:
Map(doc_id, text):
    for word in text:
        add(word, 1)

In [None]:
Reduce(word, counts):
    add(word, sum(counts))

то есть во время Map каждому слову присвоили значение count = 1, а на этапе Reduce подсчитали значение суммы counts для каждого слова.

# Основы базы данных

#### Задачи:
1. Перечисли способы получить количество записей в таблице?
2. Выполнится ли этот запрос?
SELECT 
     order_id,
     order_code,
     SUM(order_value)
FROM 
     orders
GROUP BY
     order_id


#### Решение:


### 1.
а) SELECT COUNT(*) FROM table - классика жанра

б) SELECT SUM(1) FROM table - берет колонку, заполненную единицами и суммирует значения этой колонки, что и будет равно кол-ву записей

в) SHOW TABLE STATUS - выводит информацию о таблице, в том числе будет указано кол-во записей

### 2.
 Запрос выполнится, но в нем нет смысла. Он группирует по уникальным order_id, т.е. никакой группировки и не будет (значения и так уникальны).

Этот запрос аналогичен более простому 
SELECT 
     order_id,
     order_code,
     order_value
FROM 
     orders

# Основы программирования

#### Задачи:
1. Дан массив целых чисел nums и целое число target. Написать функцию, возвращающую индексы элементов, дающих в сумме число target?
2. Предполагается, что в каждом массиве имеется не больше одной пары дающих в сумме заданное число target. Нельзя использовать один и тот же элемент дважды?


#### Решение:

Условие задачи, в той инетерпретации, что описана выше, очень неоднозначно.

Пояснение: согласно первому условию нужно "вернуть индексы элементов, дающих в сумме target", то есть задача решается полным перебором всех возможных комбинация чисел внутри массива. Сложность такого алгоритма - $O(2^n)$ (худший случай), где $n = len(nums)$. При рассмотрении массива длины 10 придется перебрать до 1024 значений. 

Поэтому, полагаю, что требуется в конечном итоге найти индексы уникальной(единственной) пары элементов массива nums, дающих в сумме target.


Можно пройтись по всем элементам в два вложенных цикла, но сложность такого алгоритма $O(n^2)$ - в целом рабочий алгоритм, но для nums большой длины не подходит, т.к. $n = len(nums)$.

Поэтому пару "число-индекс" заносим в словарь. Работаем только с самим массивом nums, а после нахождения пары обратимся к словарю для выдачи индексов. Сложность $O(n)$, но работа алгоритма возможна только при уникальности значения каждого элемента массива, т.к. ключи не могут иметь одинаковых значений. Пример некорректной работы вышеописанного алгоритма приведен ниже.

In [3]:
# решение "в лоб". Сложность O(n^2)

def pair_index(nums, target):

    for i in range(0, len(nums)):
        for j in range(i + 1, len(nums)):
            if nums[i] + nums[j] == target:
                return i, j

    return False

pair_index([0, 3, 2, 3, 11, 5, 12, 70, 81, 9], 6)

(1, 3)

In [4]:
# эффективный алгоритм, но только для случая уникальных элементов массива nums (без повторов).
# В проверке ниже, указан случай в котором алгоритм ошибается.

def two_(nums, target):

    prevnums = set()
    nums_dict = dict(zip(nums, [i for i in range(len(nums))]))

    for now_num in nums:
        if target - now_num in prevnums:
            return nums_dict[now_num], nums_dict[target - now_num]
        prevnums.add(now_num)
    return False

print(two_([0, 2, 2, 3, 11, 5, 12, 70, 81, 9], 4))

print(two_([0, 2, 2, 3, 11, 5, 12, 70, 81, 9], 5))

(2, 2)
(3, 2)
