# <center> Анализ данных на Python </center>

# Семинар 5. Словари да множества

Поговорим про словари, множества, хэш-таблицы и другие разные штуки! 

# 1. Что такое Хэш-таблица? 

Вы - продавец в магазине. Когда покупатель что-то у вас покупает, вы проверяете стоимость товара по книге. 

In [60]:
book = [('яйца', 60), ('чай', 16), ('кофе', 35), ('лён', 20), 
        ('петрушка', 15), ('торт', 10), ('арбуз', 60), ('йогурт', 35), 
        ('соя', 20), ('ролтон', 42), ('бобы', 10), ('глаз дракона', 2)]

Как найти сколько стоят бобы? Листать книгу, читать в ней каждую строчку до тех пор пока мы не найдём ответ. 

In [61]:
x = 'бобы'

for item in book:
    if item[0] == x:
        print(item[1])

10


__Вопрос:__ Если у нас всего $n$ продуктов, сколько действий нам надо будет сделать в худшем случае? 

Как-то долговато. Давайте попробуем ускориться. Одной из идей ускорения может быть сортировка. Если отсортировать все продукты по их названию, искать будет легче. 

In [62]:
book = sorted(book, key=lambda w: w[0])
book

[('арбуз', 60),
 ('бобы', 10),
 ('глаз дракона', 2),
 ('йогурт', 35),
 ('кофе', 35),
 ('лён', 20),
 ('петрушка', 15),
 ('ролтон', 42),
 ('соя', 20),
 ('торт', 10),
 ('чай', 16),
 ('яйца', 60)]

Будем открывать книгу в середине. Там буква "п". Нам нужна буква "б", она левее буквы "п". Откроем серидну левой части книги, там буква "й", нам нужно еще левее, снова откроем середину. Будем так делать до тех пор, пока не найдём бобы. Такая процедура будет работать быстрее, она называется __бинарный поиск.__

In [None]:
# Попытайтесь на досуге написать такой поиск самостоятельно :) 

    # ┬─┬ ノ( ゜-゜ノ)       Писать код самому? 
    
    # (╯° □°)╯︵ ┻━┻ 

__Вопрос:__ Если у нас всего $n$ продуктов, сколько действий нам надо будет сделать в худшем случае? 

Всё ещё долго. А можно ещё быстрее? Конечно можно. Давайте наймём помощницу по имени Алиса и заставим её выучить всю книгу с продуктами и ценами наизусть. Тогда мы сможем задавать ей вопрос и моментально будем получать ответ на него. Просто чудо, а не помощница! Где бы взять такую... 

Попробуем создать её из тех структур данных, которые мы уже знаем. А именно: из массивов. Для этого будем использовать __хеш-функцию.__ Хеш-функция - это такая функция, которая на вход получает строку и возвращает число. Они и поможет нам создать свою Алису.

In [64]:
x = [0]*33 # заведём пустой массив
x[:10]

[0, 0, 0, 0, 0, 0, 0, 0, 0, 0]

Пусть наша хэш-функция возвращает номер первой буквы слова в алфавите. 

In [75]:
def simple_hash(x):
    alph = 'абвгдеёжзийклмнопрстуфхцчшщъыьэюя'
    return alph.index(x[0])

simple_hash('яйца')

32

Положим в массив $x$ на $32$ позицию цену на яйца. По аналогии сделаем со всеми продуктами и их ценами. 

In [76]:
for food, price in book:
    x[simple_hash(food)] = price
    
x

[60,
 10,
 0,
 2,
 0,
 0,
 0,
 0,
 0,
 0,
 35,
 35,
 20,
 0,
 0,
 0,
 15,
 42,
 20,
 10,
 0,
 0,
 0,
 0,
 16,
 0,
 0,
 0,
 0,
 0,
 0,
 0,
 60]

Хэщ-функция в нашем примере связывает каждое название с одним индексом. На месте этого индекса в векторе $x$ и лежит нужная цена. __Поздравляю, мы создали свою Алису!__

А теперь к нам приходит клиент и спрашивает: "А сколько стоит торт?" Мы легко можем ответить на его вопрос: 

In [78]:
ind = simple_hash('торт')
x[ind]

10

И мы делаем это моментально, без перебора как в первых двух случаях. 

__Вопросы:__

- Понятное дело, что на практике хеш-функции устроены сложнее, у той функции, которую мы тут использовали есть куча проблем: какие это проблемы? 
- Как можно попытаться решить эти проблемы? 

В python хэш-таблицы реализованы в виде словарей и множеств. Давайте с ними познакомимся. 

# 2. Работаем со словарями

In [11]:
product = ['яйца', 'чай', 'кофе', 'банан', 'петрушка', 'сода', 
           'яблочко', 'йогурт', 'соя', 'беозар', 'бобы', 'печень дракона']

price = [60, 16, 35, 20, 15, 10, 60, 35, 20, 42, 10, 2]

zip(product, price)

<zip at 0x107967688>

In [12]:
list( zip(product, price) )

[('яйца', 60),
 ('чай', 16),
 ('кофе', 35),
 ('банан', 20),
 ('петрушка', 15),
 ('сода', 10),
 ('яблочко', 60),
 ('йогурт', 35),
 ('соя', 20),
 ('беозар', 42),
 ('бобы', 10),
 ('печень дракона', 2)]

In [14]:
book_dict = dict(zip(product, price))
book_dict

{'яйца': 60,
 'чай': 16,
 'кофе': 35,
 'банан': 20,
 'петрушка': 15,
 'сода': 10,
 'яблочко': 60,
 'йогурт': 35,
 'соя': 20,
 'беозар': 42,
 'бобы': 10,
 'печень дракона': 2}

In [16]:
book_dict['яйца'] = 70  # цены растут! 
book_dict

{'яйца': 70,
 'чай': 16,
 'кофе': 35,
 'банан': 20,
 'петрушка': 15,
 'сода': 10,
 'яблочко': 60,
 'йогурт': 35,
 'соя': 20,
 'беозар': 42,
 'бобы': 10,
 'печень дракона': 2}

In [17]:
book_dict['дефлопе'] = 500 # ура! новый продукт! 
book_dict

{'яйца': 70,
 'чай': 16,
 'кофе': 35,
 'банан': 20,
 'петрушка': 15,
 'сода': 10,
 'яблочко': 60,
 'йогурт': 35,
 'соя': 20,
 'беозар': 42,
 'бобы': 10,
 'печень дракона': 2,
 'дефлопе': 500}

In [18]:
t = book_dict.pop('чай') # чай кончился :(
book_dict

{'яйца': 70,
 'кофе': 35,
 'банан': 20,
 'петрушка': 15,
 'сода': 10,
 'яблочко': 60,
 'йогурт': 35,
 'соя': 20,
 'беозар': 42,
 'бобы': 10,
 'печень дракона': 2,
 'дефлопе': 500}

In [19]:
t

16

In [20]:
book_dict['чай'] # мужчинаааа, говорю же у нас нет чаааяяяя

KeyError: 'чай'

In [22]:
book_dict.get('чай', 'нет такого у нас') # если нет, отдавай второе значение

'нет такого у нас'

In [23]:
'чай' in book_dict  # девушка девушка, а у вас есть чай?

False

In [24]:
'кофе' in book_dict  # а кофе?

True

In [25]:
'танцы' in book_dict  # а может потанцуем? 

False

In [26]:
book_dict.keys()

dict_keys(['яйца', 'кофе', 'банан', 'петрушка', 'сода', 'яблочко', 'йогурт', 'соя', 'беозар', 'бобы', 'печень дракона', 'дефлопе'])

In [27]:
book_dict.values()

dict_values([70, 35, 20, 15, 10, 60, 35, 20, 42, 10, 2, 500])

In [28]:
book_dict.items()

dict_items([('яйца', 70), ('кофе', 35), ('банан', 20), ('петрушка', 15), ('сода', 10), ('яблочко', 60), ('йогурт', 35), ('соя', 20), ('беозар', 42), ('бобы', 10), ('печень дракона', 2), ('дефлопе', 500)])

In [31]:
for k, v in book_dict.items():
    print(f"Продукт {k} стоит {v} рублей")

Продукт яйца стоит 70 рублей
Продукт кофе стоит 35 рублей
Продукт банан стоит 20 рублей
Продукт петрушка стоит 15 рублей
Продукт сода стоит 10 рублей
Продукт яблочко стоит 60 рублей
Продукт йогурт стоит 35 рублей
Продукт соя стоит 20 рублей
Продукт беозар стоит 42 рублей
Продукт бобы стоит 10 рублей
Продукт печень дракона стоит 2 рублей
Продукт дефлопе стоит 500 рублей


Ещё немного магии:

In [32]:
[i for i in range(2, 20, 3)]       # список

[2, 5, 8, 11, 14, 17]

In [34]:
{i: i**3 for i in range(2, 20, 3)} # словарь 

{2: 8, 5: 125, 8: 512, 11: 1331, 14: 2744, 17: 4913}

In [35]:
(i for i in range(2, 20, 3)) # не показывает ((((( 

<generator object <genexpr> at 0x1079780c0>

In [36]:
range(1, 10)       # тоже не показывает

range(1, 10)

In [37]:
list(range(1,10))  # показал !!!

[1, 2, 3, 4, 5, 6, 7, 8, 9]

__Вопрос:__ а почему он себя так ведёт капризно? 

# 3. Множества

Это то же самое, что и словари, но без значений. Только ключи.

In [39]:
fruits = {"banana", "apple", "orange",  "orange"}
fruits  # ты куда один апельсин дел?!

{'apple', 'banana', 'orange'}

In [40]:
fruits = ["banana", "apple", "orange",  "orange",  "apple",  "apple",  "apple"]
set(fruits)

{'apple', 'banana', 'orange'}

In [42]:
my_fruits = {"apple", "orange"}
your_fruits = {"orange", "banana", "pear"}

my_fruits | your_fruits # объединение множеств

{'apple', 'banana', 'orange', 'pear'}

In [43]:
my_fruits & your_fruits  # пересечение множеств

{'orange'}

In [44]:
my_fruits - your_fruits  # разность множеств

{'apple'}

In [45]:
'orange' in my_fruits 

True

In [46]:
your_fruits.remove("banana")  # удаление
your_fruits

{'orange', 'pear'}

In [47]:
your_fruits.add("banana")  # добавление
your_fruits

{'banana', 'orange', 'pear'}

# 4. Задачки


In [48]:
# simple tool for tests
def test_problem(func, test_data):
    for inputs, true_answer in test_data:
        answer = func(inputs)
        assert answer == true_answer, f'Expected {true_answer}, got {answer}. Input: {inputs}'
    print("OK!")

## Задачка 1: [камешки](https://leetcode.com/problems/jewels-and-stones/)

У Дори в глубинах океана есть кучка камней. Часть камней из этой кучки драгоценные. Недавно она пересчитала все драгоценные и забыла сколько их. Чтобы больше не забывать, Дори решила написать на питоне функцию, которая будет считать камни за неё.

Напишите на python функцию, которая принимает на вход список драгоценных камней $J$ и список камней, которые есть у Дори $S$. На выход функция возвращает число драгоценных камней в запасах Дори.

__Примеры:__ 

> Input: J = "aA", S = "aAAbbbb" <br />
Output: 3

Тут драгоценными считаются камни a и A. У Дори есть камни aAAbbbb. Среди них три драгоценных, aAA.

>Input: J = "z", S = "ZZ" <br />
Output: 0

Драгоценными мы считаем только камень z. У Дори два камня, оба обычные.

In [None]:
def numJewelsInStones(J, S):
    
    ### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
    # will the code be with you
    
    return answer

In [None]:
NUM_JEWELS_IN_STONES_TESTS_DATA = [
        (("aA", "aAAbbbb"), 3),
        (("z","ZZ"),0)
    ]
test_problem(numJewelsInStones, NUM_JEWELS_IN_STONES_TESTS_DATA)

__Пара слов об эффективности:__

In [50]:
from random import random
n_obs = 10**6

In [55]:
mylist = [random() for _ in range(n_obs)]
myset = set(mylist)

In [56]:
%%timeit
0.5 in mylist  # список

16 ms ± 325 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [57]:
%%timeit
0.5 in myset   # множество

99.8 ns ± 2.3 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


## Задачка 2: слова

Напишите функцию `stats(s)`, принимающую на вход строку `s`, содержащую слова, разделённые пробелами или переводами строки, и находящую самое часто встречающееся слово. Если такое слово одно, верните его, если их несколько, верните список, отсортированный в лексикографическом порядке.

Например: `stats("hello hello world")` должна вернуть строчку `"hello"`, а `stats("a a b b c")` должна вернуть список `['a','b']`.

In [None]:
def stats(s):
    
    ### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
    # will the code be with you
    
    return answer

In [None]:
STATS_TESTS_DATA = [
        ("hello hello world", "hello"),
        ("a a b b c", ['a','b'])
    ]
test_problem(stats, STATS_TESTS_DATA)

## Задачка 3: сумма двух 

Дан массив из целых чисел $x$ и ещё одно целое число $s$.  Найдите все такие пары чисел из массива $x$, которые в сумме дают число $s$. Выведите на экран их индексы. Одно и то же число использовать при подсчёте суммы дважды нельзя. Попытайтесь решить эту задачу максимально эффективно. 

In [58]:
def two_sum(nums, target):
    
    
    # ┬─┬ ノ( ゜-゜ノ)
    
    # (╯° □°)╯︵ ┻━┻
    return ...

In [None]:
TWO_SUM_TESTS_DATA = [
    ([[2, 7, 11, 15], 9], (0, 1)),
]

test_problem(two_sum, TWO_SUM_TESTS_DATA)

## Задачка 4:  магазин

Вам предостоит обработать базу данных о продажах некоторого интернет-магазина. База данных представляет собой набор кортежей, в каждом кортеже три элемента: (Покупатель, товар, количество), где Покупатель — имя покупателя (строка без пробелов), товар — название товара (строка без пробелов), количество — количество приобретенных единиц товара.

Создайте словарь, ключами которого являются имена покупателей, а значениями — словари, ключами которых являются названия товаров, а значениями — количество единиц этого товара, которые купил этот покупатель.

Напишите функцию `aggregate`, принимающую некоторое количество набор кортежей из базы данных и возвращающую сводную информацию в виде словаря.

In [None]:
def aggregate(nums, target):
    
    
    # ┬─┬ ノ( ゜-゜ノ)
    
    # (╯° □°)╯︵ ┻━┻
    return ...

In [None]:
AGG_TESTS_DATA = [
    [(("Petrov","pens",5), ("Ivanov","marker",3), ("Ivanov","paper",7), ("Petrov","envelope",20), ("Ivanov","envelope",5)], 
     {'Ivanov': {'envelope': 5, 'marker': 3, 'paper': 17},'Petrov': {'envelope': 20, 'pens': 5}}),
    
    [("Ivanov","aaa",1), ("Petrov","aaa",2), ("Sidorov","aaa",3), ("Ivanov","aaa",6), ("Petrov","aaa",7), ("Sidorov","aaa",8), 
     ("Ivanov","bbb",3), ("Petrov","bbb",7), ("Sidorov","aaa",345), ("Ivanov","ccc",45), ("Petrov","ddd",34), ("Ziborov","eee",234), 
     ("Ivanov","aaa",45)],
    {'Ivanov': {'aaa': 52, 'bbb': 3, 'ccc': 45}, 'Petrov': {'aaa': 9, 'bbb': 7, 'ddd': 34}, 'Sidorov': {'aaa': 356}, 'Ziborov': {'eee': 234}}
]

test_problem(aggregate, AGG_TESTS_DATA)

<img src="https://steemitimages.com/0x0/https://media.makeameme.org/created/repeat-repeat-repeat-5984a6.jpg" height="400" width="400">