# Прикладное программное обеспечение
#### Python для извлечения и обработки данных


## Сортировки, словари, множества
Социлогия | 1 курс | 3 модуль | Семинар 5

*Авторы: Валентин Бирюков, Татьяна Рогович, НИУ ВШЭ*

Мы продолжаем работать со структурами данных - контейнерами. Мы уже знаем списки и кортежи - упорядоченные структуры, которые могут хранить в себе объекты любых типов, к которым мы можем обратиться по индексу. Сегодня мы поговорим о стуктурах неупорядоченных - множествах и словарях. 

# Множества
Множества хранят некоторое количество объектов, но, в отличие от списка, один объект может храниться в множестве не более одного раза. Кроме того, порядок элементов множества произволен, им нельзя управлять.

Тип называется set, это же является конструктором типа, т.е. в функцию set можно передать произвольную последовательность, и из этой последовательности будет построено множество:

In [1]:
print(set([10, 20, 30])) # передаем список
print(set((4, 5, 6))) # передаем tuple
print(set(range(10)))
print(set()) # пустое множество

{10, 20, 30}
{4, 5, 6}
{0, 1, 2, 3, 4, 5, 6, 7, 8, 9}
set()



Другой способ создать множество - это перечислить его элементы в фигурных скобках (список - в квадратных, кортеж в круглых, а множество - в фигурных)

In [5]:
primes = {2, 3, 5, 7}
animals = {"cat", "dog", "horse", 'cat'}
print(primes)
print(animals)

{2, 3, 5, 7}
{'cat', 'dog', 'horse'}


Кстати, обратите внимание, что множество может состоять только из уникальных объектов. Выше множество animals включает в себя только одну кошку несмотря на то, что в конструктор мы передали 'cat' два раза. Преобразовать в список в множество - самый простой способ узнать количество уникальных объектов.

Множества - это последовательности, с ними работает почти всё, что работает с последовательностями:

In [6]:
print(len(primes)) # длина
print(11 in primes) # in хорошо и быстро работает для множеств
print("cow" in animals)
for p in primes:  # можно перебирать множество
    print(p)

4
False
False
2
3
5
7


Все возможные операции с множествами: https://docs.python.org/3/library/stdtypes.html#set-types-set-frozenset

Отдельно мы посмотрим на так называемые операции над множествами. Если вы знаете круги Эйлера, то помните как различают объекты множеств - пересечение, объекты, которые принадлежат множеству а, но не принадлежат b и так далее. Давайте посмотрим, как эти операции реализовани в питоне.

In [6]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}
c = {2, 3}

print(c <= a) # проверка на подмножество (с подномжество a)
print(c <= b) # не подмножество, т.к. в b нет 2 
print(a >= c) 
print(a | b) # объединение
print(a & b) # пересечение
print(a - b) # разность множеств (все что в a, кроме b)
print(a ^ b) # симметрическая разность множеств (объединение без пересечения)

c = a.copy() # копирование множества, или set(a)
print(c)

True
False
True
True
{1, 2, 3, 4, 5, 6}
{3, 4}
{1, 2}
{1, 2, 5, 6}
{1, 2, 3, 4}


Предыдущие операции не меняли множества, создавали новые. А как менять множество:


In [8]:
s = {1, 2, 3}
s.add(10) # добавить
print(s) # обратите внимание, что порядок элементов непредсказуем
s.remove(1) # удаление элемента
s.discard(1) # аналогично, но не будет ошибки, если вдруг такого элемента нет в множестве
print(s)
x = s.pop() # удаляет и возвращает один произвольный элемент множества (можем сохранить его в переменную)
print(s)
print(x)
s.clear() # очистить
print(s)

{10, 1, 2, 3}
{10, 2, 3}
{2, 3}
10
set()


Как мы сокращали арифметические операции раньше (например, +=), так же можно сокращать операции над множествами.

In [9]:
s |= {10, 20} # s = s | {10, 20} # объединение множества s с {10,20}
print(s)
# s ^=, s &= и т.п.

{10, 20}


# Задачки

## Количество различных чисел

Дан список чисел, который может содержать до 100000 чисел. Определите, сколько в нем встречается различных чисел.

#### Пример 1

##### Ввод	

1 2 3 2 1

##### Вывод

3

#### Пример 2
##### Ввод	

1 2 3 4 5 1 2 1 2 7 3

##### Вывод
6


In [76]:
# решение здесь

# Словари (ассоциативные массивы)
Обычный массив (в питоне это список) можно понимать как функцию, которая сопоставляет начальному отрезку натурального ряда какие-то значения.

Давайте посмотрим на списки непривычным способом. Списки - это функции (отображения), которые отображают начальный ряд натуральных чисел в объекты (проще говоря - преводят число 0,1,2,3... во что-то): 

In [9]:
l = [10, 20, 30, 'a']
print(l[0])
print(l[1])
print(l[2])
print(l[3])

10
20
30
a


В словарях отображать можно не только начала натурального ряда, а произвольные объекты. Представьте себе настоящий словарь или телефонную книжку. Имени человека соответствует номер телефона.

Классическое использование словарей в анализе данных: хранить частоту слова в тексте.

кот $\rightarrow$ 10

и $\rightarrow$ 100

Тейлора $\rightarrow$ 2

Словарь состоит из набора ключей и соответствующих им значений. Значения могут быть любыми объектами (также как и в списке, хранить можно произвольные объекты). А ключи могут быть почти любыми объектами, но только неизменяемыми. В частности числами, строками, кортежами. Список или множество не могут быть ключом.

Одному ключу соответствует ровно одно значение. Но одно и то же значение, в принципе, можно сопоставить разным ключа

In [12]:
a = dict()
a[(2,3)] = [2,3] # кортеж может быть ключом, потому что он неизменямый
a

{(2, 3): [2, 3]}

In [18]:
b = dict()
b[[2,3]] = [2,3] # а список уже нет, получим ошибку
print(b)

TypeError: unhashable type: 'list'

### Создание словаря
В фигурных скобках (как множество), через двоеточие ключ:значение

In [41]:
d1 = {"кот": 10, "и": 100, "Тейлора": 2}
print(d1)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Через функцию dict(). Обратите внимание, что тогда ключ-значение задаются не через двоеточие, а через знак присваивания. А строковые ключи пишем без кавычек - по сути мы создаем переменные с такими названиями и присваиваим им значения (а потом функция dict() уже превратит их в строки).

In [25]:
d2 = dict(кот=10, и=100, Тейлора=2)
print(d2) # получили тот же результат, что выше

{'кот': 10, 'и': 100, 'Тейлора': 2}


И третий способ - передаем функции dict() список списков или кортежей с парами ключ-значение.

In [29]:
d3 = dict([("кот", 10), ("и", 100), ("Тейлора", 2)]) # перечисление (например, список) tuple
print(d3)

{'кот': 10, 'и': 100, 'Тейлора': 2}


Помните, когда мы говорили про списки, мы обсуждали проблему того, что важно создавать именно копию объекта, чтобы сохранять исходный список. Копию словаря можно сделать так

In [32]:
d4 = dict(d3) # фактически, копируем dict который строчкой выше
print(d4)

{'кот': 10, 'и': 100, 'Тейлора': 2}


In [34]:
d1 == d2 == d3 == d4 # Содержание всех словарей одинаковое

True

Пустой словарь можно создать двумя способами.

In [36]:
d2 = {} # это пустой словарь (но не пустое множество)
d4 = dict()
print(d2, d4)

{} {}


### Операции со словарями

Как мы уже говорили, словари неупорядоченные структуры и обратиться по индексу к объекту уже больше не удастся.

In [37]:
d1[1] # выдаст ошибку во всех случах кроме того, если в вашем словаре вдруг есть ключ 1

KeyError: 1

Но можно обращаться к значению по ключу.

In [42]:
print(d1['кот'])
d1["кот"] = 11 # так же как в списке по индексу - можно присвоить новое значение по ключу
print(d1['кот'])

10
11


Можно создать новую пару ключ-значение. Для этого просто указываем в квадратных скобках название нового ключа.

In [43]:
d1[1] = 'test'
print(d1[1]) # теперь работает!

test


Кроме обращения по ключу, можно достать значение с помощью метода .get(). Отличие работы метода в том, что если ключа еще нет в словаре, он не генерирует ошибку, а возвращает объект типа None (ничего). Это очень полезно в решении некоторых задач.

In [45]:
print(d1.get("кот")) # вернул значение 11
print(d1.get("ктоо")) # вернут None
print(d1['ктоо']) # ошибка

11
None


KeyError: 'ктоо'

Также со словарями работают уже знакомые нам операции - проверка количества элементов, проверка на наличие объектов.

In [46]:
print(d1)
print("кот" in d1) # проверка на наличие ключа
print("ктоо" not in d1) # проверка на отстуствие ключа


{'кот': 11, 'и': 100, 'Тейлора': 2, 1: 'test'}
True
True


Удалить отдельный ключ или же очистить весь словарь можно специальными операциями.

In [48]:
del d1["кот"] # удалить ключ со своим значением
print(d1)
d1.clear() # удалить все
print(d1)

{'и': 100, 'Тейлора': 2, 1: 'test'}
{}


### Перебор элементов словаря

Со словарями тоже можно использовать цикл for. Но тут есть некоторые хитрости. Если просто применить цикл for к словарю, то нам напечаются только ключи.

In [49]:
d = {"кот": 10, "и": 100, "Тейлора": 2}

for something in d:
    print(something)

кот
и
Тейлора


В принципе добыть значения несложно.

In [52]:
d = {"кот": 10, "и": 100, "Тейлора": 2}

for something in d:
    print(d[something]) # передаем ключ в словарь и печатаем только значение
print('-'*10)
    
for something in d:
    print(something, d[something]) # печатаем и ключ и значение

10
100
2
----------
кот 10
и 100
Тейлора 2


Так же у нас есть специальные методы словарей, которые могут обратиться сразу к ключам, значениям или парам ключ-значение.

In [57]:
print("d.keys():")
for key in d.keys(): # d.keys() - перечисление всех ключей словаря
    print(f"ключу '",key, "' соответствует значение",d[key])
    
print("d.values():")
for value in d.values(): # d.values() - перечисление всех значений словаря
     print(value) # тут уже ключи не достанем, потому что по значению обратить к ключу нельзя

print("d.items():")
for key, value in d.items(): # d.items() - перечисление всех записей в словре как tuple
    print("ключу '",key, "' соответствует значение", value)

d.keys():
ключу ' кот ' соответствует значение 10
ключу ' и ' соответствует значение 100
ключу ' Тейлора ' соответствует значение 2
d.values():
10
100
2
d.items():
ключу ' кот ' соответствует значение 10
ключу ' и ' соответствует значение 100
ключу ' Тейлора ' соответствует значение 2


Отдельно следует обратить внимание, как работает функция sorted(). Примененная к словарю - она отсортирует словарям по ключам. Но часто нам нужно отсортировать словарь по значениям, давайте подумаем, как это сделать.

In [70]:
d = dict(a=2, c=100, w=5, b=3)

for key in d:
    print(key, d[key]) # неотсортированный вывод
print('-'*10)

for key in sorted(d):
    print(key, d[key]) # неотсортированный вывод

a 2
c 100
w 5
b 3
----------
a 2
b 3
c 100
w 5


Теперь давайте попробует отсортировать только значения и потом через отдельный цикл вывести в нужном порядке и ключи.

In [75]:
print(sorted(d.values()))
      
for value in sorted(d.values()): # сортируем значения
    for key in d: # запускаем цикл внутри цикла, чтобы теперь проверять, каким ключам соответствуют значения
        if d[key] == value: # проверяем лежит ли в этом ключе значение
            print(key, value) # если да, то печатаем пару

[2, 3, 5, 100]
a 2
b 3
w 5
c 100


### Подсчет слов

Давайте теперь поработаем с настоящим файлом и действительно посчитаем в нем слова. Мы загрузим метаданные почтового сервера университета Мичигана. И попробуем найти, с какого адреса ушло больше всего писем.

In [86]:
# импортируем библиотеку для доступа к файлам в интернете
import requests
# в переменной mbox хранится текст для работы
mbox = requests.get('http://www.py4inf.com/code/mbox.txt').text

# преобразуем наш текст в список, где каждый объект - это новая строка в файле
all_lines = mbox.split('\n')
all_lines[:5]

# собираем список всех email
emails = []
for line in all_lines:
    if line.startswith('From '):
        emails.append(line.split()[1])
        
emails_set = set(emails) # альтернативно считаем слова, создаем множество уникальных почтовых адресов
emails_dict = {}
for email in emails_set:
    emails_dict[email] = emails.count(email) # для каждого почтового адреса считаем, сколько раз он встречается с помощью метода списка

print(emails_dict)    

{'ktsao@stanford.edu': 12, 'stephen.marquard@uct.ac.za': 29, 'jlrenfro@ucdavis.edu': 1, 'ggolden@umich.edu': 8, 'zqian@umich.edu': 195, 'wagnermr@iupui.edu': 44, 'jleasia@umich.edu': 2, 'bkirschn@umich.edu': 27, 'csev@umich.edu': 19, 'hu2@iupui.edu': 7, 'aaronz@vt.edu': 110, 'colin.clark@utoronto.ca': 1, 'gjthomas@iupui.edu': 44, 'cwen@iupui.edu': 158, 'ajpoland@iupui.edu': 48, 'ian@caret.cam.ac.uk': 96, 'jzaremba@unicon.net': 9, 'arwhyte@umich.edu': 27, 'stuart.freeman@et.gatech.edu': 17, 'zach.thomas@txstate.edu': 17, 'lance@indiana.edu': 8, 'ssmail@indiana.edu': 5, 'rjlowe@iupui.edu': 90, 'john.ellis@rsmart.com': 8, 'chmaurer@iupui.edu': 111, 'kimsooil@bu.edu': 14, 'dlhaines@umich.edu': 84, 'nuno@ufp.pt': 28, 'sgithens@caret.cam.ac.uk': 43, 'bahollad@indiana.edu': 4, 'josrodri@iupui.edu': 28, 'ostermmg@whitman.edu': 17, 'david.horwitz@uct.ac.za': 67, 'gbhatnag@umich.edu': 3, 'knoop@umich.edu': 5, 'ray@media.berkeley.edu': 32, 'louis@media.berkeley.edu': 24, 'a.fish@lancaster.ac.uk':

Теперь осталось написать функцию, которая по значению выведет нам автора самого большого количества писем.

In [89]:
def dict_max_value(x):
    # будем считать, что по умолчанию максимульное значение равно одному, потому что в наших словарях
    # каждое слово встречается минимум 1 раз
    max_value = 1
    # значение максимальное ключа мы пока не знаем, поэтому создаем пустую переменную
    max_key = None
    for key, value in x.items():  # итерируемся по парам ключ-значение
        if value > max_value:  # проверяем, больше ли значение, чем максимум
            max_key = key  # обновляем ключ, если да
            max_value = value  # обновляем значение
    if max_value == 1:  # если нет ни одного значения больше одного, давайте выведем эту информацию
        print('No max value, all 1')
    else:
        print('Max value is', max_value, 'for', max_key)

dict_max_value(emails_dict)

Max value is 195 for zqian@umich.edu


## Выборы в США

Как известно, в США президент выбирается не прямым голосованием, а путем двухуровневого голосования. Сначала проводятся выборы в каждом штате и определяется победитель выборов в данном штате. Затем проводятся государственные выборы: на этих выборах каждый штат имеет определенное число голосов — число выборщиков от этого штата. На практике, все выборщики от штата голосуют в соответствии с результами голосования внутри штата, то есть на заключительной стадии выборов в голосовании участвуют штаты, имеющие различное число голосов. Вам известно за кого проголосовал каждый штат и сколько голосов было отдано данным штатом. Подведите итоги выборов: для каждого из участника голосования определите число отданных за него голосов.

### Формат ввода
Каждая строка входного файла содержит фамилию кандидата, за которого отдают голоса выборщики этого штата, затем через пробел идет количество выборщиков, отдавших голоса за этого кандидата.

### Формат вывода
Выведите фамилии всех кандидатов в лексикографическом порядке, затем, через пробел, количество отданных за них голосов.

#### Пример 1

##### Ввод	

McCain 10

McCain 5

Obama 9

Obama 8

McCain 1

##### Вывод

McCain 16

Obama 17

#### Пример 2
##### Ввод	

ivanov 100

ivanov 500

ivanov 300

petr 70

tourist 1

tourist 2

##### Вывод
ivanov 900

petr 70

tourist 3

In [77]:
# решение здесь

# Объединение словарей
Напишите программу, которая объединяет значения из двух списков.

**Ввод:**   
shops = [{'товар': 'яблоки', 'количество': 400}, {'товар': 'конфеты', 'количество': 300}, {'товар': 'яблоки', 'количество': 750}]  
**Вывод:**  
{'яблоки': 1150, 'конфеты': 300}


In [85]:
# решение здесь

# Сортировки

Разные сортировки наглядно: http://www.sorting-algorithms.com/

Вспомним, в прошлый раз мы обсуждали такую структуру данных в python, как списки.

In [78]:
a = [1, 4, 6, 3, 99, 1, 5, 4]
a

[1, 4, 6, 3, 99, 1, 5, 4]

Отдельно следует рассказать про метод **sort()**. Метод производит сортировку списка.
Задачи сортировки - очень распространены в программировании. 
В общем случае, они сводятся к выстроению элементов списка в заданном порядке.
В Python есть встроенные методы для сортировки объектов для того, чтобы программист 
мог не усложнять себе задачу написанием алгоритма сортировки. 
Метод **list.sort()** - как раз, один из таких случаев.

In [79]:
test_list = [5, 8, 1, 4, 3, 7, 2]
print(test_list)  # Элементы списка расположены в хаотичном порядке
test_list.sort()
print(test_list)  # Теперь элементы списка теперь расположены по возрастанию

[5, 8, 1, 4, 3, 7, 2]
[1, 2, 3, 4, 5, 7, 8]


Таким образом, метод **list.sort()** упорядочил элементы списка test_list
Если нужно отсортировать элементы в обратном порядке, то можно использовать

In [80]:
test_list.sort(reverse=True)  # параметр reverse указывает на то, что нужно отсортировать список в обратном порядке
print(test_list)

[8, 7, 5, 4, 3, 2, 1]


Следует обратить внимание, что метод **list.sort()** изменяет сам список, на котором его вызвали. 
Таким образом, при каждом вызове метода "**sort()**", наш список "test_list" изменяется. 
Это может быть удобно, если нам не нужно держать в памяти исходный список. 
Однако, в противном случае, или же - в случае неизменяемого типа данных (например, кортежа или строки) - 
этот метод не сработает. В таком случае, на помощь приходит встроенная в питон функция **sorted()**

In [81]:
print(sorted(test_list))  # Сам список при сортировке не изменяется


[1, 2, 3, 4, 5, 7, 8]


У функции sorted(), как и у метода list.sort() есть параметр key, 
с помощью которого можно указать функцию, которая будет применена к каждому элементу 
последовательности при сортировке.

In [83]:
test_string = 'A string With upper AND lower cases'
print(sorted(test_string.split())) # заглавные буквы получили приоритет над строчными
print(sorted(test_string.split(), key=str.upper)) # все буквы были приведены к верхнему регистру, сортировка получилась по алфавиту

['A', 'AND', 'With', 'cases', 'lower', 'string', 'upper']
['A', 'AND', 'cases', 'lower', 'string', 'upper', 'With']


Однако, в некоторых случаях, встроенных функций Python для сортировки недостаточно, 
и нужно реалиовать алгоритм самим. Поэтому, рассмотрим сортировку подсчётом (без использования sorted())
Например, это эффективнее в случаях, когда в списке много однотипных значений и нам нужно узнать,
сколько раз встречается каждое

In [84]:
marks = [1, 2, 2, 5, 7, 4, 2, 10, 7, 10]
# Создаём список, заполненный нулям длины, равной значению наибольшего элемента исходного списка + 1
# Потому что возможные значения от 0 до этого максимума (11 штук в данном случае).
cntMarks = [0] * 11

for mark in marks:  # проходим по каждому значению в исходном списке с оценками
    cntMarks[mark] += 1  # обновляем счетчик оценки в списке с нулями, если такой элемент встречается
print(cntMarks)

for nowMark in range(11):  # выводим результаты подсчета
    print((str(nowMark) + ' ') * cntMarks[nowMark], end=' ')

[0, 1, 3, 0, 1, 1, 0, 2, 0, 0, 2]
 1  2 2 2   4  5   7 7    10 10  