# Прикладное программное обеспечение
#### Python для извлечения и обработки данных


## Сортировки, словари, множества

*Автор: Валентин Бирюков, Татьяна Рогович, Александра Краснокутская, НИУ ВШЭ*

Мы продолжаем работать со структурами данных — контейнерами. Мы уже знаем списки и кортежи — упорядоченные структуры, которые могут хранить в себе объекты любых типов, к которым мы можем обратиться по индексу. Сегодня мы поговорим о стуктурах неупорядоченных — множествах и словарях. 

### Множества
Множества хранят некоторое количество объектов, но, в отличие от списка, один объект может храниться в множестве не более одного раза. Кроме того, порядок элементов множества произволен, им нельзя управлять.

Тип называется `set`, это же является конструктором типа, т.е. в функцию `set()` можно передать произвольную последовательность, и из этой последовательности будет построено множество:

In [None]:
print(set([10, 20, 30])) # Передаем список
print(set((4, 5, 6)))    # Передаем кортеж
print(set(range(10)))
print(set())             # Пустое множество

{10, 20, 30}
{4, 5, 6}
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
set()


Другой способ создать множество — это перечислить его элементы в фигурных скобках (список — в квадратных, кортеж в круглых, а множество — в фигурных).

In [None]:
primes = {2, 3, 5, 7}
animals = {"cat", "dog", "horse", 'cat'}
print(primes)
print(animals)

{2, 3, 5, 7}
{'cat', 'horse', 'dog'}


Кстати, обратите внимание, что множество может состоять только из уникальных объектов. Выше множество `animals` включает в себя только одну кошку несмотря на то, что в конструктор мы передали `'cat'` два раза. Преобразовать в список в множество — самый простой способ узнать количество уникальных объектов.

Множества — это последовательности, с ними работает почти всё, что работает с последовательностями:

In [None]:
print(len(primes))      # Длина
print(11 in primes)     # in хорошо и быстро работает для множеств
print("cow" in animals)
for p in primes:        # Можно перебирать множество
    print(p)

4
False
False
2
3
5
7


In [None]:
primes[0]

TypeError: 'set' object does not support indexing

Все возможные операции с множествами: https://python-scripts.com/sets 

Отдельно мы посмотрим на так называемые операции над множествами. Если вы знаете круги Эйлера, то помните как различают объекты множеств — пересечение, объекты, которые принадлежат множеству а, но не принадлежат b и так далее. Давайте посмотрим, как эти операции реализовани в питоне.

In [None]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

print(c <= a) # Проверка на подмножество (с подномжество a)
print(c <= b) # Не подмножество, т.к. в b нет 2 
print(a >= c) 
print(a | b)  # Объединение
print(a & b)  # Пересечение
print(a - b)  # Разность множеств (все что в a, кроме b)
print(a ^ b)  # Симметрическая разность множеств (объединение без пересечения)

c = a.copy()  # Копирование множества, или set(a)
print(c)

True
False
True
{1, 2, 3, 4, 5, 6}
{3, 4}
{1, 2}
{1, 2, 5, 6}
{1, 2, 3, 4}


Предыдущие операции не меняли множества, создавали новые. А как менять множество:

In [None]:
s = {1, 2, 3}
s.add(10)    # Добавить
print(s)     # Обратите внимание, что порядок элементов непредсказуем
s.remove(1)  # Удаление элемента
s.discard(1) # Аналогично, но не будет ошибки, если вдруг такого элемента нет в множестве
print(s)
x = s.pop()  # Удаляет и возвращает один произвольный элемент множества (можем сохранить его в переменную)
print(s)
print(x)
s.clear()    # Очистить
print(s)

{10, 1, 2, 3}
{10, 2, 3}
{2, 3}
10
set()


Как мы сокращали арифметические операции раньше (например, `+=`), так же можно сокращать операции над множествами.

In [None]:
s = {1, 2, 3}
s |= {10, 20} # s = s | {10, 20} # объединение множества s с {10,20}
print(s)      # s ^=, s &= и т.п.

{1, 2, 3, 20, 10}


### Словари (ассоциативные массивы)
Обычный массив (в питоне это список) можно понимать как функцию, которая сопоставляет начальному отрезку натурального ряда какие-то значения.

Представьте себе настоящий словарь или телефонную книжку. Имени человека соответствует номер телефона.

Классическое использование словарей в анализе данных: хранить частоту слова в тексте.

кот $\rightarrow$ 10

и $\rightarrow$ 100

Тейлора $\rightarrow$ 2

Словарь состоит из набора ключей и соответствующих им значений. Значения могут быть любыми объектами (также как и в списке, хранить можно произвольные объекты). А ключи могут быть почти любыми объектами, но только неизменяемыми. В частности числами, строками, кортежами. Список или множество не могут быть ключом.

Одному ключу соответствует ровно одно значение. Но одно и то же значение, в принципе, можно сопоставить разным ключа

#### Создание словаря
В фигурных скобках (как множество), через двоеточие ключ:значение

In [None]:
d1 = {"кот": 10, "и": 100, "Тейлора": 2}
print(d1)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Через функцию `dict()`. Обратите внимание, что тогда ключ-значение задаются не через двоеточие, а через знак присваивания. А строковые ключи пишем без кавычек — по сути мы создаем переменные с такими названиями и присваиваим им значения (а потом функция `dict()` уже превратит их в строки).

In [None]:
d2 = dict(кот=10, и=100, Тейлора=2)
print(d2) # Получили тот же результат, что выше

{'кот': 10, 'и': 100, 'Тейлора': 2}


И третий способ — передаем функции `dict()` список списков или кортежей с парами ключ-значение.

In [None]:
d3 = dict([("кот", 10), ("и", 100), ("Тейлора", 2)]) # Перечисление (например, список) tuple
print(d3)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Помните, когда мы говорили про списки, мы обсуждали проблему того, что важно создавать именно копию объекта, чтобы сохранять исходный список. Копию словаря можно сделать так:

In [None]:
d4 = dict(d3) # Фактически, копируем dict который строчкой выше
print(d4)

{'кот': 10, 'и': 100, 'Тейлора': 2}


In [None]:
d1 == d2 == d3 == d4 # Содержание всех словарей одинаковое

True

Пустой словарь можно создать двумя способами.

In [None]:
d2 = {} # Это пустой словарь (но не пустое множество)
d4 = dict()
print(d2, d4)

{} {}


#### Операции со словарями

Как мы уже говорили, словари неупорядоченные структуры и обратиться по индексу к объекту уже больше не удастся.

In [None]:
d1[1] # Выдаст ошибку во всех случах кроме того, если в вашем словаре вдруг есть ключ 1

KeyError: 1

Но можно обращаться к значению по ключу.

In [None]:
print(d1['кот'])
d1["кот"] = 11   # Так же как в списке по индексу —  можно присвоить новое значение по ключу
print(d1['кот'])

10
11


Можно создать новую пару ключ-значение. Для этого просто указываем в квадратных скобках название нового ключа.

In [None]:
d1[1] = 'test'
print(d1[1]) # Теперь работает!

test


Кроме обращения по ключу, можно достать значение с помощью метода `.get()`. Отличие работы метода в том, что если ключа еще нет в словаре, он не генерирует ошибку, а возвращает объект типа `None` (ничего). Это очень полезно в решении некоторых задач.

In [None]:
print(d1.get("кот"))  # Вернул значение 11
print(d1.get("ктоо")) # Вернут None
print(d1['ктоо'])     # Ошибка

11
None


KeyError: 'ктоо'

Также со словарями работают уже знакомые нам операции - проверка количества элементов, проверка на наличие объектов.

In [None]:
print(d1)
print("кот" in d1)      # Проверка на наличие ключа
print("ктоо" not in d1) # Проверка на отстуствие ключа

{'кот': 11, 'и': 100, 'Тейлора': 2, 1: 'test'}
True
True


Удалить отдельный ключ или же очистить весь словарь можно специальными операциями.

In [None]:
del d1["кот"] # Удалить ключ со своим значением
print(d1)
d1.clear()    # Удалить все
print(d1)

{'и': 100, 'Тейлора': 2, 1: 'test'}
{}


#### Перебор элементов словаря
Со словарями тоже можно использовать цикл `for`. Но тут есть некоторые хитрости. Если просто применить цикл `for` к словарю, то нам напечаются только ключи.

In [None]:
d = {"кот": 10, "и": 100, "Тейлора": 2}

for something in d:
    print(something)

кот
и
Тейлора


В принципе добыть значения несложно.

In [None]:
d = {"кот": 10, "и": 100, "Тейлора": 2}

for something in d:
    print(d[something]) # Передаем ключ в словарь и печатаем только значение
print('-'*10)
    
for something in d:
    print(something, d[something]) # Печатаем и ключ и значение

10
100
2
----------
кот 10
и 100
Тейлора 2


Так же у нас есть специальные методы словарей, которые могут обратиться сразу к ключам, значениям или парам ключ-значение.

In [None]:
print("d.keys():")
for key in d.keys(): # d.keys() —  перечисление всех ключей словаря
    print(f"ключу '",key, "' соответствует значение",d[key])
    
print("d.values():")
for value in d.values(): # d.values() —  перечисление всех значений словаря
     print(value) # Тут уже ключи не достанем, потому что по значению обратить к ключу нельзя

print("d.items():")
for key, value in d.items(): # d.items() —  перечисление всех записей в словре как tuple
    print("ключу '",key, "' соответствует значение", value)

d.keys():
ключу ' кот ' соответствует значение 10
ключу ' и ' соответствует значение 100
ключу ' Тейлора ' соответствует значение 2
d.values():
10
100
2
d.items():
ключу ' кот ' соответствует значение 10
ключу ' и ' соответствует значение 100
ключу ' Тейлора ' соответствует значение 2


Отдельно следует обратить внимание, как работает функция `sorted()`. Примененная к словарю — она отсортирует словарям по ключам. Но часто нам нужно отсортировать словарь по значениям, давайте подумаем, как это сделать.

In [None]:
d = dict(a=2, c=100, w=5, b=3)

for key in d:
    print(key, d[key]) # Неотсортированный вывод
print('-'*10)

for key in sorted(d):
    print(key, d[key]) # Отсортированный вывод

a 2
c 100
w 5
b 3
----------
a 2
b 3
c 100
w 5


Теперь давайте попробуем отсортировать только значения и потом через отдельный цикл вывести в нужном порядке и ключи.

In [None]:
print(sorted(d.values()))
      
for value in sorted(d.values()): # Сортируем значения
    for key in d:                # Запускаем цикл внутри цикла, чтобы теперь проверять, каким ключам соответствуют значения
        if d[key] == value:      # Проверяем лежит ли в этом ключе значение
            print(key, value)    # Если да, то печатаем пару

[2, 3, 5, 100]
a 2
b 3
w 5
c 100


# Задачи для тренировки
Часть из этих задач мы решим в классе. Но если мы даже не успеем - попытайтесь сделать их дома сами.

### Задание 1. Количество различных чисел

Дан список чисел, который может содержать до 100000 чисел. 

+ Определите, сколько в нем встречается различных чисел.
+ Определите, сколько раз в нем встречается каждое уникальное число. По итогу получите словарь, где ключ — уникальный элемент списка, а значение — сколько раз этот элемент встречается в списке.

In [None]:
nums = input().split()

print(f'Количество уникальных элементов:{len(set(nums))}')

4 5 6 8 3 4 5 2 3 6 8
Количество уникальных элементов:6


In [None]:
nums_dict = {}

for i in set(nums):
    nums_dict[i] = nums.count(i)

In [None]:
nums_dict

{'8': 2, '6': 2, '3': 2, '2': 1, '5': 2, '4': 2}

### Задание 2. Объединение словарей

Напишите программу, которая объединяет значения из двух списков.

**Ввод:**   
shops = [{'товар': 'яблоки', 'количество': 400}, {'товар': 'конфеты', 'количество': 300}, {'товар': 'яблоки', 'количество': 750}]  
**Вывод:**  
{'яблоки': 1150, 'конфеты': 300}


In [None]:
shops = [{'товар': 'яблоки', 'количество': 400}, 
         {'товар': 'конфеты', 'количество': 300}, 
         {'товар': 'яблоки', 'количество': 750}]

for i in shops:
    print(i)

{'товар': 'яблоки', 'количество': 400}
{'товар': 'конфеты', 'количество': 300}
{'товар': 'яблоки', 'количество': 750}


In [None]:
new_dict = {}

for i in shops:
    if i['товар'] in new_dict:
        new_dict[i['товар']] += i['количество']
    else:
        new_dict[i['товар']] = i['количество']

In [None]:
new_dict

{'яблоки': 1150, 'конфеты': 300}