# Анализ данных на Python

### Семинар 5. Множества и словари

# Множества (set)

Мы уже знаем списки и кортежи - упорядоченные структуры, которые могут хранить в себе объекты любых типов, к которым мы можем обратиться по индексу. Теперь поговорим о стуктурах неупорядоченных - множествах и словарях. 

Множества хранят некоторое количество объектов, но, в отличие от списка, один объект может храниться в множестве не более одного раза. Кроме того, порядок элементов множества произволен, им нельзя управлять.

Тип называется set, это же является конструктором типа, т.е. в функцию set можно передать произвольную последовательность, и из этой последовательности будет построено множество:

In [1]:
print(set([10, 20, 30])) # передаем список
print(set((4, 5, 6))) # передаем tuple
print(set(range(10))) # послед-сть от 0 до 10 не включая
print(set()) # пустое множество

{10, 20, 30}
{4, 5, 6}
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
set()



Другой способ создать множество - это перечислить его элементы в фигурных скобках (список - в квадратных, кортеж в круглых, а множество - в фигурных)

In [2]:
primes = {2, 3, 5, 7}
animals = {"cat", "dog", "horse", 'cat'}
print(primes)
print(animals)

{2, 3, 5, 7}
{'dog', 'horse', 'cat'}


Кстати, обратите внимание, что множество может состоять только из уникальных объектов. Выше множество animals включает в себя только одну кошку несмотря на то, что в конструктор мы передали 'cat' два раза. Преобразовать список в множество - самый простой способ узнать количество уникальных объектов.

Со множествами работает почти всё, что работает с последовательностями (но не работают индексы, потому что элементы не хранятся упорядоченно).

In [3]:
print(len(primes)) # длина
print(11 in primes) # проверка на наличие элемента in хорошо и быстро работает для множеств
print("cow" in animals)

4
False
False


Все возможные операции с множествами: https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset

Отдельно мы посмотрим на так называемые операции над множествами. Если вы знаете круги Эйлера, то помните как различают объекты множеств - пересечение, объекты, которые принадлежат множеству а, но не принадлежат b и так далее. Давайте посмотрим, как эти операции реализованы в питоне.

In [4]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

print(c <= a) # проверка на подмножество (с подномжество a)
print(c <= b) # не подмножество, т.к. в b нет 2 
print(a >= c) # а надмножество с
print(a | b) # объединение
print(a & b) # пересечение
print(a - b) # разность множеств (все что в a, кроме b)
print(a ^ b) # симметрическая разность множеств (объединение без пересечения)

c = a.copy() # копирование множества, или set(a)
print(c)

True
False
True
{1, 2, 3, 4, 5, 6}
{3, 4}
{1, 2}
{1, 2, 5, 6}
{1, 2, 3, 4}


Предыдущие операции не меняли множества, создавали новые. А как менять множество:


In [5]:
s = {1, 2, 3}
s.add(10) # добавить
print(s) # обратите внимание, что порядок элементов непредсказуем
s.remove(1) # удаление элемента
s.discard(1) # аналогично, но не будет ошибки, если вдруг такого элемента нет в множестве
print(s)
x = s.pop() # удаляет и возвращает один произвольный элемент множества (можем сохранить его в переменную)
print(s)
print(x)
s.clear() # очистить
print(s)

{10, 1, 2, 3}
{10, 2, 3}
{2, 3}
10
set()


Как мы сокращали арифметические операции раньше (например, +=), так же можно сокращать операции над множествами.

In [6]:
s |= {10, 20} # s = s | {10, 20} # объединение множества s с {10,20}
print(s)
# s ^=, s &= и т.п.

{10, 20}


### Задача 1 (на самом деле очень простая)

Дан список чисел, который может содержать до 100000 чисел. Определите, сколько в нем встречается различных чисел.

#### Пример 1

##### Ввод	

1 2 3 2 1

##### Вывод

3

#### Пример 2
##### Ввод	

1 2 3 4 5 1 2 1 2 7 3

##### Вывод
6

In [7]:
# решение здесь

lst = set(map(int, input().split()))
print(len(lst))

1 2 3 2 1
3


### Задача 2 (факультативы)
Группа из 3 студентов пишет заявки на желаемые факультативы из списка: английский, немецкий, право, математика, сольфеджио. Факультатив откроют, если на него запишутся все студенты. Каждый студент может выбрать минимум один и максимум три факультатива. Нужно посчитать количество факультативов, которые откроются.

*Пример*

**Ввод:**

английский сольфеджио право  
математика сольфеджио  
немецкий право

**Вывод:**

0

**Ввод:**

математика немецкий право  
математика немецкий  
немецкий право математика 

**Вывод:**  
2

In [8]:
# считываем значения для каждого студента. input() принимает на ввод строку вида 'немецкий право математика'
# split() разбивает ее по пробелам и делает из нее список вида ['немецкий', 'право', 'математика'] (каждое слово, отделенное пробелом, стало объектом в нем)
# set() из этого списка делает множество (уникальные предметы, которые выбрал студент)
stud1 = set(input().split())
stud2 = set(input().split())
stud3 = set(input().split())
print(len(stud1 & stud2 & stud3)) # находим пересечение трех множеств (факультативы, которые общие для всех трех студентов) и смотрим, сколько объектов в этом множестве (len())

математика немецкий право
математика немецкий
немецкий право математика
2


Давайте модифицируем эту задачу, и представим, что только два студента выбирают факультативы, откроются факультативы, которые выбрал, хотя бы один студент. Но затем выясняется, что один из факультативов из списка отменили. Выводить будет через запятую те факультативы, которые откроются.

*Пример*  
**Ввод:**

математика немецкий право  
математика английский  
право

**Вывод:**  
математика, немецкий, английский

In [9]:
# решение здесь

stud1 = set(input().split())
stud2 = set(input().split())
cancelled = input()

opened = (stud1 | stud2)
opened.discard(cancelled)
print(*opened, sep=', ')

математика немецкий право
математика английский
право
математика, немецкий, английский


## Задача 3: [камешки](https://leetcode.com/problems/jewels-and-stones/)

У Дори в глубинах океана есть кучка камней. Часть камней из этой кучки драгоценные. Недавно она пересчитала все драгоценные и забыла сколько их. Чтобы больше не забывать, Дори решила написать на питоне функцию, которая будет считать камни за неё.

Напишите на python функцию, которая принимает на вход список драгоценных камней $J$ и список камней, которые есть у Дори $S$. На выход функция возвращает число драгоценных камней в запасах Дори.

__Примеры:__ 

> Input: J = "aA", S = "aAAbbbb" <br />
Output: 3

Тут драгоценными считаются камни a и A. У Дори есть камни aAAbbbb. Среди них три драгоценных, aAA.

>Input: J = "z", S = "ZZ" <br />
Output: 0

Драгоценными мы считаем только камень z. У Дори два камня, оба обычные.

<img src="https://steemitimages.com/0x0/https://media.makeameme.org/created/repeat-repeat-repeat-5984a6.jpg" height="400" width="400">

In [10]:
def numJewelsInStones(J, S):
    
    ### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
    # will the code be with you
    answer = 0
    J = set(J)
    for stone  in S:
        if stone  in J:
            answer += 1
    
    return answer

In [11]:
def test_problem_13(func, test_data):
    for inputs, true_answer in test_data:
        answer = func(*inputs)
        assert answer == true_answer, f'Expected {true_answer}, got {answer}. Input: {inputs}'
    print("OK!")

In [12]:
NUM_JEWELS_IN_STONES_TESTS_DATA = [
        (("aA", "aAAbbbb"), 3),
        (("z","ZZ"),0)
    ]
test_problem_13(numJewelsInStones, NUM_JEWELS_IN_STONES_TESTS_DATA)

OK!


__Пара слов об эффективности:__

In [13]:
from random import random
n_obs = 10**6

In [14]:
mylist = [random() for _ in range(n_obs)]
myset = set(mylist)

In [15]:
%%timeit
0.5 in mylist  # список

10.3 ms ± 1.5 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


In [16]:
%%timeit
0.5 in myset   # множество

56.7 ns ± 1.97 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


# Словари (dict)
Обычный массив (в питоне это список) можно понимать как функцию, которая сопоставляет начальному отрезку натурального ряда какие-то значения.

Давайте посмотрим на списки непривычным способом. Списки - это функции (отображения), которые отображают начальный ряд натуральных чисел в объекты (проще говоря - преводят число 0,1,2,3... во что-то): 

In [17]:
l = [10, 20, 30, 'a']
print(l[0])
print(l[1])
print(l[2])
print(l[3])

10
20
30
a


В словарях отображать можно не только начала натурального ряда, а произвольные объекты. Представьте себе настоящий словарь или телефонную книжку. Имени человека соответствует номер телефона.

Классическое использование словарей в анализе данных: хранить частоту слова в тексте.

кот $\rightarrow$ 10

и $\rightarrow$ 100

Тейлора $\rightarrow$ 2

Словарь состоит из набора ключей и соответствующих им значений. Значения могут быть любыми объектами (также как и в списке, хранить можно произвольные объекты). А ключи могут быть почти любыми объектами, но только неизменяемыми. В частности числами, строками, кортежами. Список или множество не могут быть ключом.

Одному ключу соответствует ровно одно значение. Но одно и то же значение, в принципе, можно сопоставить разным ключам.

In [18]:
a = dict()
a[(2,3)] = [2,3] # кортеж может быть ключом, потому что он неизменямый
a

{(2, 3): [2, 3]}

In [19]:
b = dict()
b[[2,3]] = [2,3] # а список уже нет, получим ошибку
print(b)

TypeError: unhashable type: 'list'

### Создание словаря
В фигурных скобках (как множество), через двоеточие ключ:значение

In [20]:
d1 = {"кот": 10, "и": 100, "Тейлора": 2}
print(d1)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Через функцию dict(). Обратите внимание, что тогда ключ-значение задаются не через двоеточие, а через знак присваивания. А строковые ключи пишем без кавычек - по сути мы создаем переменные с такими названиями и присваиваим им значения (а потом функция dict() уже превратит их в строки).

In [21]:
d2 = dict(кот=10, и=100, Тейлора=2)
print(d2) # получили тот же результат, что выше

{'кот': 10, 'и': 100, 'Тейлора': 2}


И третий способ - передаем функции dict() список списков или кортежей с парами ключ-значение.

In [22]:
d3 = dict([("кот", 10), ("и", 100), ("Тейлора", 2)]) # перечисление (например, список) tuple
print(d3)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Помните, когда мы говорили про списки, мы обсуждали проблему того, что важно создавать именно копию объекта, чтобы сохранять исходный список. Копию словаря можно сделать так

In [23]:
d4 = dict(d3) # фактически, копируем dict который строчкой выше
print(d4)

{'кот': 10, 'и': 100, 'Тейлора': 2}


In [24]:
d1 == d2 == d3 == d4 # Содержание всех словарей одинаковое

True

Пустой словарь можно создать двумя способами.

In [25]:
d2 = {} # это пустой словарь (но не пустое множество)
d4 = dict()
print(d2, d4)

{} {}


### Операции со словарями

Как мы уже говорили, словари неупорядоченные структуры и обратиться по индексу к объекту уже больше не удастся.

In [26]:
d1[1] # выдаст ошибку во всех случах кроме того, если в вашем словаре вдруг есть ключ 1

KeyError: 1

Но можно обращаться к значению по ключу.

In [28]:
print(d1['кот'])

10


Можно создать новую пару ключ-значение. Для этого просто указываем в квадратных скобках название нового ключа.

In [29]:
d1[1] = 'test'
print(d1[1]) # теперь работает!

test


Внимание: если элемент с указанным ключом уже существует, новый с таким же ключом не добавится! Ключ – это уникальный идентификатор элемента. Если мы добавим в словарь новый элемент с уже существующим ключом, мы просто изменим старый – словари являются изменяемыми объектами. 

In [30]:
d1["кот"] = 11 # так же как в списке по индексу - можно присвоить новое значение по ключу
print(d1['кот'])
d1["кот"] += 1 # или даже изменить его за счет арифметической операции
print(d1['кот'])

11
12


А вот одинаковые значения в словаре могут быть.

In [31]:
d1['собака'] = 12
print(d1)

{'кот': 12, 'и': 100, 'Тейлора': 2, 1: 'test', 'собака': 12}


Кроме обращения по ключу, можно достать значение с помощью метода .get(). Отличие работы метода в том, что если ключа еще нет в словаре, он не генерирует ошибку, а возвращает объект типа None ("ничего"). Это очень полезно в решении некоторых задач. 

In [32]:
print(d1.get("кот")) # вернул значение 11
print(d1.get("ктоо")) # вернут None
print(d1['ктоо']) # ошибка

12
None


KeyError: 'ктоо'

Удобство метода .get() заключается в том, что мы сами можем установить, какое значение будет возвращено, в случае, если пары с выбранным ключом нет в словаре. Так, вместо None мы можем вернуть строку Not found, и ломаться ничего не будет:

In [34]:
print(d1.get("ктоо", 'Not found')) # передаем вторым аргументом, что возвращать
print(d1.get("ктоо", False)) # передаем вторым аргументом, что возвращать

Not found
False


Также со словарями работают уже знакомые нам операции - проверка количества элементов, проверка на наличие объектов.

In [35]:
print(d1)
print("кот" in d1) # проверка на наличие ключа
print("ктоо" not in d1) # проверка на отстуствие ключа


{'кот': 12, 'и': 100, 'Тейлора': 2, 1: 'test', 'собака': 12}
True
True


Удалить отдельный ключ или же очистить весь словарь можно специальными операциями.

In [36]:
del d1["кот"] # удалить ключ со своим значением
print(d1)
d1.clear() # удалить все
print(d1)

{'и': 100, 'Тейлора': 2, 1: 'test', 'собака': 12}
{}


У словарей есть три метода, с помощью которых мы можем сгенерировать список только ключей, только значений и список пар ключ-значения (на самом деле там несколько другая структура, но ведет себя она очень похоже на список).

In [37]:
print(d1.values()) # только значения
print(d1.keys()) # только ключи
print(d1.items()) # только значения

dict_values([])
dict_keys([])
dict_items([])


## Пример

In [38]:
product = ['яйца', 'чай', 'кофе', 'банан', 'петрушка', 'сода', 
           'яблочко', 'йогурт', 'соя', 'беозар', 'бобы', 'печень дракона']

price = [60, 16, 35, 20, 15, 10, 60, 35, 20, 42, 10, 2]

zip(product, price)

<zip at 0x7fa42a2b1780>

In [39]:
book_dict = dict(zip(product, price))
book_dict

{'яйца': 60,
 'чай': 16,
 'кофе': 35,
 'банан': 20,
 'петрушка': 15,
 'сода': 10,
 'яблочко': 60,
 'йогурт': 35,
 'соя': 20,
 'беозар': 42,
 'бобы': 10,
 'печень дракона': 2}

In [40]:
book_dict.keys()

dict_keys(['яйца', 'чай', 'кофе', 'банан', 'петрушка', 'сода', 'яблочко', 'йогурт', 'соя', 'беозар', 'бобы', 'печень дракона'])

In [41]:
book_dict.values()

dict_values([60, 16, 35, 20, 15, 10, 60, 35, 20, 42, 10, 2])

In [42]:
book_dict.items()

dict_items([('яйца', 60), ('чай', 16), ('кофе', 35), ('банан', 20), ('петрушка', 15), ('сода', 10), ('яблочко', 60), ('йогурт', 35), ('соя', 20), ('беозар', 42), ('бобы', 10), ('печень дракона', 2)])

In [43]:
for k, v in book_dict.items():
    print(f"Продукт {k} стоит {v} рублей")

Продукт яйца стоит 60 рублей
Продукт чай стоит 16 рублей
Продукт кофе стоит 35 рублей
Продукт банан стоит 20 рублей
Продукт петрушка стоит 15 рублей
Продукт сода стоит 10 рублей
Продукт яблочко стоит 60 рублей
Продукт йогурт стоит 35 рублей
Продукт соя стоит 20 рублей
Продукт беозар стоит 42 рублей
Продукт бобы стоит 10 рублей
Продукт печень дракона стоит 2 рублей


In [44]:
{i: i**3 for i in range(2, 20, 3)} # словарь 

{2: 8, 5: 125, 8: 512, 11: 1331, 14: 2744, 17: 4913}

Ну, и раз уж питоновские словари так похожи на обычные, давайте представим, что у нас есть словарь, где все слова многозначные. Ключом будет слово, а значением ‒ целый список. 

In [45]:
my_dict = {'swear' : ['клясться', 'ругаться'], 'dream' : ['спать', 'мечтать']}

По ключу мы получим значение в виде списка:

In [46]:
my_dict['swear']

['клясться', 'ругаться']

Так как значением является список, можем отдельно обращаться к его элементам:

In [47]:
my_dict['swear'][0] # первый элемент

'клясться'

Можем пойти дальше и создать словарь, где значениями являются словари! Например, представим, что в некотором сообществе проходят выборы, и каждый участник может проголосовать за любое число кандидатов. Данные сохраняются в виде словаря, где ключами являются имена пользователей, а значениями – пары *кандидат-голос*.

In [48]:
votes = {'user1': {'cand1': '+', 'cand2': '-'},
         'user2' : {'cand1': 0, 'cand3' : '+'}} # '+' - за, '-' - против, 0 - воздержался

In [49]:
votes

{'user1': {'cand1': '+', 'cand2': '-'}, 'user2': {'cand1': 0, 'cand3': '+'}}

По аналогии с вложенными списками по ключам мы сможем обратиться к значению в словаре, который сам является значением в `votes` (да, эту фразу нужно осмыслить):

In [50]:
votes['user1']['cand1'] # берем значение, соответствующее ключу user1, в нем – ключу cand1

'+'

"Объединять словари можно через метод update(). Обратите внимание, что если в словарях есть одинаковые ключи, то они перезапишутся ключами того словаря, который добавляем."

In [51]:
votes.update(my_dict)
votes

{'user1': {'cand1': '+', 'cand2': '-'},
 'user2': {'cand1': 0, 'cand3': '+'},
 'swear': ['клясться', 'ругаться'],
 'dream': ['спать', 'мечтать']}

In [52]:
votes['swear'] = 1 # добавим в словарь votes ключ swear, чтобы проверить, что произойдет, когда объединим с my_dict, в котором есть такой ключ\n",
votes.update(my_dict)
print(votes) # swear в votes перезаписался swear из mydict

{'user1': {'cand1': '+', 'cand2': '-'}, 'user2': {'cand1': 0, 'cand3': '+'}, 'swear': ['клясться', 'ругаться'], 'dream': ['спать', 'мечтать']}


## Задача 4: слова

Напишите функцию `stats(s)`, принимающую на вход строку `s`, содержащую слова, разделённые пробелами, и находящую самое часто встречающееся слово. Если такое слово одно, верните его, если их несколько, верните список, отсортированный в лексикографическом порядке.

Например: `stats("hello hello world")` должна вернуть строчку `"hello"`, а `stats("a a b b c")` должна вернуть список `['a','b']`.

In [53]:
def stats(s):
    
    ### ╰( ͡° ͜ʖ ͡° )つ▬▬ι═══════  bzzzzzzzzzz
    # will the code be with you
    
    # Сначала составим словарь вида {слово: частота}
    word_cnt = dict()
    for word in s.split(" "):
        if word in word_cnt:
            word_cnt[word] += 1
        else:
            word_cnt[word] = 0
    
    # заведем массив для слов и счётчик для максимума
    word_max, cnt_max = [ ], 0
    
    # пройдемся по всем словам из словаря
    for k,v in word_cnt.items():
        
        # если максимум совпадает с текущим словом, добавляем его в список
        if v == cnt_max:
            word_max.append(k)
            
        # если текущее слово новый максимум, сбрасываем список
        if v > cnt_max:
            word_max = [k]
            cnt_max = v
    
    if len(word_max) == 1:
        return word_max[0]
    else:
        return sorted(word_max)

In [54]:
def test_problem(func, test_data):
    for inputs, true_answer in test_data:
        answer = func(inputs)
        assert answer == true_answer, f'Expected {true_answer}, got {answer}. Input: {inputs}'
    print("OK!")

In [55]:
STATS_TESTS_DATA = [
        ("hello hello world", "hello"),
        ("a a b b c", ['a','b'])
    ]
test_problem(stats, STATS_TESTS_DATA)

OK!


## Задача 5: сумма двух 

Дан массив из целых чисел `nums` и ещё одно целое число `target`.  Найдите все такие пары чисел из массива `nums`, которые в сумме дают число `target`. Выведите на экран их индексы. Одно и то же число использовать при подсчёте суммы дважды нельзя. Попытайтесь решить эту задачу максимально эффективно. 

In [56]:
# сложность O(n*(n-1)/2) = O(n^2)
# https://leetcode.com/problems/two-sum/

def two_sum_slow(nums, target):
    answer = [ ]
    
    n = len(nums)
    for i in range(n):
        for j in range(i + 1, n):
            if nums[i] + nums[j] == target:
                answer.append((i,j))
    
    return answer

nums = [1,5,4,3,2]
target = 5
two_sum_slow(nums, target)

[(0, 2), (3, 4)]

In [57]:
# сложность O(n logn + n) = O(n logn)
# https://leetcode.com/problems/two-sum-ii-input-array-is-sorted

def two_sum_medium(nums, target):
    nums.sort() # O(n log(n))
    
    answer = [ ]

    i = 0
    j = len(nums) - 1

    # O(n)
    while i < j:
        if nums[i] + nums[j] > target:
            j -= 1
        elif nums[i] + nums[j] < target:
            i += 1
        else:
            answer.append((i,j))
            i += 1
            j -= 1
            
    return answer

nums = [1,5,4,3,2]
target = 5
two_sum_medium(nums, target)

[(0, 3), (1, 2)]

In [58]:
# сложность O(n) по времени
# сложность O(n) по памяти

def two_sum_fast(nums, target):
    
    # ┬─┬ ノ( ゜-゜ノ)
    
    # (╯° □°)╯︵ ┻━┻
    
    d = dict()
    answer = [ ]
    for i in range(len(nums)):
        if nums[i] in d:
            answer.append((d[nums[i]], i))
        else:
            d[target - nums[i]] = i
    return answer
    
nums = [1,2,4,3,5]
target = 5
two_sum_fast(nums, target)

[(0, 2), (1, 3)]

In [59]:
TWO_SUM_TESTS_DATA = [
    (([2, 7, 11, 15], 9), [(0, 1)]),
]

test_problem_13(two_sum_fast, TWO_SUM_TESTS_DATA)

OK!
