# Прикладное программное обеспечение
#### Python для извлечения и обработки данных


## Сортировки, словари, множества
Социлогия | 1 курс | 3 модуль | Семинар 6

*Автор: Валентин Бирюков, НИУ ВШЭ*

# Множества
Множества хранят некоторое количество объектов, но, в отличие от списка, один объект может храниться в множестве не более одного раза. Кроме того, порядок элементов множества произволен, им нельзя управлять.

Тип называется set, это же является конструктором типа, т.е. в функцию set можно передать произвольную последовательность, и из этой последовательности будет построено множество:

In [2]:
print(set([10, 20, 30])) # передаем список
print(set((4, 5, 6))) # передаем tuple
print(set(range(10)))
print(set()) # пустое множество

{10, 20, 30}
{4, 5, 6}
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
set()



Другой способ создать множество - это перечислить его элементы в фигурных скобках (список - в квадратных, а множество - в фигурных)

In [3]:
primes = {2, 3, 5, 7}
animals = {"cat", "dog", "aadwark"}

Множества - это последовательности, с ними работает почти всё, что работает с последовательностями:

In [4]:
print(len(primes)) # длина
print(11 in primes) # in хорошо и быстро работает для множеств
print("cow" in animals)
for p in primes:  # можно перебирать множество
    print(p)

4
False
False
2
3
5
7


Все возможные операции с множествами: https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset

А сейчас обсудим несколько простых:

In [6]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

print(c <= a) # проверка на подмножество
print(c <= b) # не подмножество, т.к. в b нет 2
print(c < a) # строгое подмножество
print(a >= c)
print(a | b) # объединение
print(a & b) # пересечение
print(a - b) # разность множеств (все что в a, кроме b)
print(a ^ b) # симметрическая разность множеств (объединение без пересечения)
c = a.copy() # копирование множества, или set(a)
print(c)

True
False
True
True
{1, 2, 3, 4, 5, 6}
{3, 4}
{1, 2}
{1, 2, 5, 6}
{1, 2, 3, 4}


Предыдущие операции не меняли множества, создавали новые. А как менять множество:


In [8]:
s = {1, 2, 3}
s.add(10) # добавить
print(s) # обратите внимание, что порядок элементов непредсказуем
s.remove(1) # удаление элемента
s.discard(1) # аналогично, но не будет ошибки, если нечего удалять
print(s)
x = s.pop() # удаляет и возвращает один произвольный элемент множества
print(s)
print(x)
s.clear() # очистить

s |= {10, 20} # s = s | {10, 20}
print(s)
# s ^=, s &= и т.п.

{10, 1, 2, 3}
{10, 2, 3}
{2, 3}
10
{10, 20}


# Словари (ассоциативные массивы)
Обычный массив (в питоне это список) можно понимать как функцию, которая сопоставляет начальному отрезку натурального ряда какие-то значения:

Давайте посмотрим на списки непривычным способом. Списки - это функции (отображения), которые отображают начальный ряд натуральных чисел в объекты (проще говоря - преводят число 0,1,2,3... во что-то): 

In [9]:
l = [10, 20, 30, 'a']
print(l[0])
print(l[1])
print(l[2])
print(l[3])

10
20
30
a


В словарях отображать можно не только начала натурального ряда, а произвольные объекты. Классический пример использования словарей: хранить частоту слова в тексте:

кот $\rightarrow$ 10

и $\rightarrow$ 100

Тейлора $\rightarrow$ 2

Словарь состоит из набора ключей и соответствующих им значений. Значения могут быть любыми объектами (также как и в списке, хранить можно произвольные объекты). А ключи могут быть почти любыми объектами. В частности числами, строками и др. Список или множество не могут быть ключом.

Одному ключу соответствует ровно одно значение. Но одно и то же значение, в принципе, можно сопоставить разным ключа

### Создание словаря
В фигурных скобках (как множество), через двоеточие ключ:значение

In [10]:

d1 = {"кот": 10, "и": 100, "Тейлора": 2}
d2 = {} # это пустой словарь (но не пустое множество)
d3 = dict(кот=10, и=100, Тейлора=2)
d4 = dict([("кот", 10), ("и", 100), ("Тейлора", 2)]) # перечисление (например, список) tuple
d5 = dict(d4) # фактически, копируем dict который строчкой выше
d1 == d3 == d4 == d5 # Содержание всех словарей одинаковое

True

### Операции со словарями

In [12]:
print(len(d1)) # количество записей (запись - это пара ключ:значение)
print(d1["кот"]) # узнать значение для ключа, будет ошибка, если ключа нет в словаре
d1["кот"] = 11 # записать значение для ключа, неважно, было ли уже у этого ключа какое-то значение
print(d1.get("кот")) # аналогично предыдущему, но не генерирует ошибку, а возвращает None
print(d1.get("ктоо"))
print("кот" in d1) # проверка на наличие ключа
print("ктоо" not in d1) # проверка на отстуствие ключа
del d1["кот"] # удалить ключ со своим значением
d1.clear() # удалить все
d1.copy() # скопировать

3
10
11
None
True
True


{}

### Перебор элементов словаря

In [None]:
d = {"кот": 10, "и": 100, "Тейлора": 2}

print("d.keys():")
for key in d.keys(): # d.keys() - перечисление всех ключей словаря
    print(f"ключу '",key, "' соответствует значение",d1[key])

print("d.items():")
for key, value in d.items(): # d.items() - перечисление всех записей в словре как tuple
    print("ключу '",key, "' соответствует значение", value)

# Задачки

## Количество различных чисел

Дан список чисел, который может содержать до 100000 чисел. Определите, сколько в нем встречается различных чисел.

#### Пример 1

##### Ввод	

1 2 3 2 1

##### Вывод

3

#### Пример 2
##### Ввод	

1 2 3 4 5 1 2 1 2 7 3

##### Вывод
6


## Выборы в США

Как известно, в США президент выбирается не прямым голосованием, а путем двухуровневого голосования. Сначала проводятся выборы в каждом штате и определяется победитель выборов в данном штате. Затем проводятся государственные выборы: на этих выборах каждый штат имеет определенное число голосов — число выборщиков от этого штата. На практике, все выборщики от штата голосуют в соответствии с результами голосования внутри штата, то есть на заключительной стадии выборов в голосовании участвуют штаты, имеющие различное число голосов. Вам известно за кого проголосовал каждый штат и сколько голосов было отдано данным штатом. Подведите итоги выборов: для каждого из участника голосования определите число отданных за него голосов.

### Формат ввода
Каждая строка входного файла содержит фамилию кандидата, за которого отдают голоса выборщики этого штата, затем через пробел идет количество выборщиков, отдавших голоса за этого кандидата.

### Формат вывода
Выведите фамилии всех кандидатов в лексикографическом порядке, затем, через пробел, количество отданных за них голосов.

#### Пример 1

##### Ввод	

McCain 10

McCain 5

Obama 9

Obama 8

McCain 1

##### Вывод

McCain 16

Obama 17

#### Пример 2
##### Ввод	

ivanov 100

ivanov 500

ivanov 300

petr 70

tourist 1

tourist 2

##### Вывод
ivanov 900

petr 70

tourist 3

# Сортировки

Разные сортировки наглядно: http://www.sorting-algorithms.com/

Вспомним, в прошлый раз мы обсуждали такую структуру данных в python, как списки.

In [16]:
a = [1, 4, 6, 3, 99, 1, 5, 4]
a

[1, 4, 6, 3, 99, 1, 5, 4]

Отдельно следует рассказать про метод **sort()**. Метод производит сортировку списка.
Задачи сортировки - очень распространены в программировании. 
В общем случае, они сводятся к выстроению элементов списка в заданном порядке.
В Python есть встроенные методы для сортировки объектов для того, чтобы программист 
мог не усложнять себе задачу написанием алгоритма сортировки. 
Метод **list.sort()** - как раз, один из таких случаев.

In [17]:
test_list = [5, 8, 1, 4, 3, 7, 2]
print(test_list)  # Элементы списка расположены в хаотичном порядке
test_list.sort()
print(test_list)  # Теперь элементы списка теперь расположены по возрастанию

[5, 8, 1, 4, 3, 7, 2]
[1, 2, 3, 4, 5, 7, 8]


Таким образом, метод **list.sort()** упорядочил элементы списка test_list
Если нужно отсортировать элементы в обратном порядке, то можно использовать

In [19]:
test_list.sort(reverse=True)  # параметр reverse указывает на то, что нужно отсортировать список в обратном порядке
print(test_list)

[8, 7, 5, 4, 3, 2, 1]


Следует обратить внимание, что метод **list.sort()** изменяет сам список, на котором его вызвали. 
Таким образом, при каждом вызове метода "**sort()**", наш список "test_list" изменяется. 
Это может быть удобно, если нам не нужно держать в памяти исходный список. 
Однако, в противном случае, или же - в случае неизменяемого типа данных (например, кортежа или строки) - 
этот метод не сработает. В таком случае, на помощь приходит встроенная в питон функция **sorted()**

In [20]:
print(sorted(test_list))  # Сам список при сортировке не изменяется


[1, 2, 3, 4, 5, 7, 8]


In [21]:
'''
У функции sorted(), как и у метода list.sort() есть параметр key, 
с помощью которого можно указать функцию, которая будет применена к каждому элементу 
последовательности при сортировке.
'''
test_string = 'A string With upper AND lower cases'
print(sorted(test_string.split()))
print(sorted(test_string.split(), key=str.upper))

['A', 'AND', 'With', 'cases', 'lower', 'string', 'upper']
['A', 'AND', 'cases', 'lower', 'string', 'upper', 'With']


Однако, в некоторых случаях, встроенных функций Python для сортировки недостаточно, 
и нужно реалиовать алгоритм самим. Поэтому, рассмотрим сортировку подсчётом (без использования sorted())
Например, это эффективнее в случаях, когда в списке много однотипных значений и нам нужно узнать,
сколько раз встречается каждое

In [22]:
marks = [1, 2, 2, 5, 7, 4, 2, 10, 7, 10]
# Создаём список, заполненный нулям длины, равной значению наибольшего элемента исходного списка + 1
# Потому что возможные значения от 0 до этого максимума (11 штук в данном случае).
cntMarks = [0] * 11
for mark in marks:  # проходим по каждому значению в исходном списке с оценками
    cntMarks[mark] += 1  # обновляем счетчик оценки в списке с нулями, если такой элемент встречается
print(cntMarks)
for nowMark in range(11):  # выводим результаты подсчета
    print((str(nowMark) + ' ') * cntMarks[nowMark], end=' ')

[0, 1, 3, 0, 1, 1, 0, 2, 0, 0, 2]
 1  2 2 2   4  5   7 7    10 10  