**Занятие 5**

1. Коллекции в Python: словари и множества, встроенные методы работы с ними. 
2. Функции в Python. Аргументы по умолчанию.

**Множество** -- коллекция уникальных элементов, в которой не гарантируется никакой порядок над ними.

Common uses include 
- membership testing, 
- removing duplicates from a sequence, 
- computing standard math operations on sets such as intersection, union, difference, and symmetric difference.

Важно: все элементы должны быть "неизменяемыми" (immutables), так как только у неизменяемых может быть честно определён метод __hash__.

Да, множество в питоне -- это HashSet.

In [4]:
# для создания множества надо подать ему на вход iterable 
# (то, что можно, например, перебирать for ... in ...), например, список
hello_set = set([1, 2, 8, 8, 5, "vyshel", "zaichik"])
one_more_way_to_set_a_set = {"pif", "paf", "oi!", "oi!", "oi!"}

# Вопрос: что мы получим, если напишем?
# b = set("humpty-dumpty sat on the wall")

# пустое множество
a = set()

# NB! это не множество!
b = {}

# типы обоих объектов
print(type(a), type(b))

In [None]:
# len -- "размер", "длина", мощность множества
print(len(hello_set))
print(len(one_more_way_to_set_a_set), one_more_way_to_set_a_set)

# проверка, содержится ли элемент в множестве -- in
if "pogulyat'" in hello_set:
    print("Element found in set")
else:
    print("Oops, not found")

# не в множестве -- x not in some_set -- то же, что not x in some_set
print("pogulyat' is not in hello_set, is it?", "pogulyat'" not in hello_set)

In [None]:
# проверки на вхождение как подмножество
integer = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20}
prime = {2, 3, 5, 7, 11, 13, 17, 19}

# проверка, что каждый элемент -- каждый элемент другого
# результат -- булевское значение
print(prime.issubset(integer))
print(prime <= integer)

# то же, но другой порядок "аргументов" -- проверяем, что второе входит в первое
print(integer.issuperset(prime))
print(integer >= prime)

In [None]:
# бинарные операции над множествами, каждая создаёт НОВОЕ множество
s = {'duck', 'hen'}
t = {'cuckoo', 'sparrow', 'hawk', 'woodpeckers', 'duck'}
print(s, t)

# объединение
print("Union")
all_birds = s.union(t)
print(all_birds)
all_birds = s | t # то же
print(all_birds)

# пересечение
print("Intersection")
intersection_birds = s.intersection(t)
print(intersection_birds)
intersection_birds = s & t
print(intersection_birds)

# разность множеств
print("Diff")
print("domestic - wild", s.difference(t))
print("wild - domestic", t - s)
print("wild - wild", t - t)

# симметрическая разность (XOR)
print("XOR")
print(s.symmetric_difference(t))
print(s ^ t)

# Множество -- iterable, значит, его можно также обходить с помощью for ... in ...

In [None]:
# Самостоятельная работа
# Создайте с помощью range (подсказка: range также iterable) множество чисел a от 10 до 20
# Создайте с помощью range множество чисел b от 15 до 35
# Создайте с помощью range множество чисел c от 0 до 30

# Распечатайте множество a
# Распечатайте множество a с помощью for через пробел
# Распечатайте множество a с помощью join через пробел

# Самостоятельная работа
# 1) Скачайте любое стихотворение/песню/любой текст, 
#    в которых есть повторяющиеся слова, и запишите в файл
# 2) Удалите "небуквенные" символы (используя .replace(), например)
# 3) Приведите всё в нижний регистр 
# 4) Разделите по "пробельным символам" -- получится список слов
# 5) Распечатайте количество слов (длину списка)
# 6) Распечатайте количество уникальных слов в тексте, подсчитав её с помощью множества

In [10]:
# Изменение множеств
# Множество, у которого вызывается метод (add, pop, clear, ...) будет ИЗМЕНЕНО

s = set([2, 3, 8])

# добавление элемента в множество.
s.add(10)
print(s)

# удаление; KeyError, если такого элемента не существует
s.remove(10)

# удаление, если есть; если такого элемента нет -- ничего не происходит
s.discard(5)

# Удаление первого элемента из множества. Возвращает этот элемент как результат.
# Множества не упорядочены, поэтому нельзя точно сказать, какой элемент будет удалён.
# Но бывает нужно сделать и такое.
element = s.pop()

# очистка множества
# s.clear()

print("Ops updating")
other = set([4, 23, 98, 2, 8, 9])

print(s, other)

# объединение и обновление в s
s.update(other)
s |= other 
print(s)

# пересечение и обновление в s
s.intersection_update(other)
s &= other 
print(s)

# разность и обновление
s.difference_update(other)
s -= other
print(s)

# симметрическая разность и обновление
s.symmetric_difference_update(other)
s ^= other
print(s)

{8, 2, 3, 10}
Ops updating
{2, 3} {98, 2, 4, 8, 9, 23}
{2, 3, 98, 4, 8, 9, 23}
{98, 2, 4, 8, 9, 23}
set()
set()


**Словари**

Словарь -- коллекция, в которой доступ до элементов осуществляется не по индексу, как в списках,
а по заданному ключу.

Фактически словарь задаёт отображение над конечными множествами:

Пусть
ключи: ['key0', 'key1']
значения: ['value0', 'value0']

Тогда словарь, отображающий соответственно одно в другое

    a = {'key0': 'value0', 'key1': 'value1'}

И можно обращаться так

    extracted_value = a['key0']

в extracted value запишется 'value0'.

Ключом может быть любой неизменяемый объект, не только строки! ints, tuples, frozensets, ...

In [11]:
# Как создавать словари
# старый знакомый -- новый пустой словарь
d = {}
# то же
d = dict()

# явно прописываем ключи и значения
d = {'a': 1, 'z': 2}

d = dict(a='hello', z='dictionary')
print(d)

d = dict([('some_key', 1), ('other_key', 4)])
print(d)

# своеобразный способ
# задаём только ключи, значения проставляются None
d = dict.fromkeys(['key', 'another_key'])
print(d)

# задаём ключи и одинаковое для всех значение
d = dict.fromkeys(['a', 'z'], 0)
print(d)

{'z': 'dictionary', 'a': 'hello'}
{'some_key': 1, 'other_key': 4}
{'key': None, 'another_key': None}
{'z': 0, 'a': 0}


In [25]:
# работа со значениями
tel = {}

# кладём значение по ключу
tel['guido'] = 4127
print(tel['guido'])

# удаляем ключ+значение по ключу
del tel['guido']
print(tel)

tel['van'] = 2
tel['Rossum'] = 3

# можно получить все ключи в специальном объекте, 
# который удобно конвертировать в списки или множества, например
# никакой порядок над ключами, как и в множестве, не гарантируется
keys_as_list  = list(tel.keys())
keys_as_set  = set(tel.keys())

# можно проверять, есть ли ключ в словаре, не вызывая .keys
print(('guido' in tel) == False)
print(('van' not in tel) == False)

# Also
# d.values() - возвращает значения в словаре.
# d.items() - возвращает пары (ключ, значение).

print("\nKeys")

for key in tel.keys():
    print(key)

print()
print("What?!")

# Что будет распечатано?
# Раскомментируйте
for key in tel:
#     print(key)
    pass

print()
print("Values")

for v in tel.values():
    print(v)

print()
print("KV-pairs")

for key, val in tel.items():
    print(key, "->", val)

4127
{}
True
True

Keys
van
Rossum

What?!

Values
2
3

KV-pairs
van -> 2
Rossum -> 3


In [28]:
"""
d.get(key[, default]) - возвращает значение ключа, но если его нет, не бросает исключение, 
                        а возвращает default (по умолчанию None).

d.pop(key[, default]) - удаляет ключ и возвращает значение. 
                        Если ключа нет, возвращает default (по умолчанию бросает исключение).
    
d.popitem() - удаляет и возвращает пару (ключ, значение). 
                        Если словарь пуст, бросает исключение KeyError. Помните, что словари неупорядочены.
"""
print(tel)

print(tel.get("van"))
print(tel.get("rossum", 45))

rossum_val = tel.pop("Rossum")
print(rossum_val, tel)

van_item = tel.pop("van")
print(rossum_val, tel)

# d.clear() - очищает словарь.
# d.update([other]) - обновляет словарь, добавляя пары (ключ, значение) из other. 
#                     Существующие ключи перезаписываются. Возвращает None (не новый словарь!).

{'van': 2, 'Rossum': 3}
2
45
3 {'van': 2}
3 {}


In [1]:
# Самостоятельная работа
# Постройте словарь (например, с помощью for), 
# в котором для каждого натурального числа от 0 до 100 как ключа, 
# будет записан его квадрат как значение 

In [None]:
# Самостоятельная работа
# Постройте словарь (например, с помощью for), 
# в котором для пар вещественных чисел x из [0, 1], y из [0, 1] 
# с шагом сетки 0.1, будет записаны их расстояния Минковского до (0, 0)
# с любыми выбранными вами параметрами p, например,

# (0.0, 1.0) : (1.0, 1.0, 1.0)
# (в точке 0,1 расстояния до 0,0 по метрикам Минковского с параметрами p = 0.5, 1 и 2 равны единице)

# Распечатайте словарь. Как бы вы поменяли представление, чтобы было удобно распечатать значения "по сетке"?

**Функции**

Способ вынесения куска кода, решающего "цельную" задачу.

Выгода: 
- деление кода на осмысленные части по решаемым задачам (проще отлаживать)
- переиспользование одного и того же кода

Что нужно задать:
- уникальное в модуле имя
- список параметров
- возвращаемый результат

In [5]:
# говорим, что определяем функцию с именем return_hello, у которой есть параметр name
# она возвращает строковое значение, склеенное из "Hello " и параметра
def return_hello(name):
    return "Hello " + name

# тут нам скажут, что функция -- это такой же объект, как и всё остальное
print(return_hello)

# тут нам скажут, что мы не определили параметры
# print(return_hello())

# а вот тут нам распечатают то, что надо
print(return_hello("HSE"))

# Вопрос: а что будет, если мы передадим в качестве аргумента, скажем, число, а не строку?

<function return_hello at 0x7f73904d9e18>
Hello HSE


In [7]:
# в паскале были процедуры, во всяких си-подобных языках есть тип void...
# функция, которая ничего не возвращает (но, например, меняет объекты или что-то печатает),
# тоже имеет право на жизнь

def print_hello(name):
    print("Hello " + name)
    # просто не пишем return, и функция вернёт None

print_hello("students")

Hello students


In [16]:
# Чтобы понять, что делать можно, а что нельзя, представим, что хотим написать свой range, 
# который возвращает списки, а не генераторы.
# У него бывает от одного до трёх аргументов, и у нас будет так же.
def list_range(n):
    return list(range(n))

def list_range(m, n):
    return list(range(m, n))

# Oops! выходит, мы просто переопределили функцию, прежняя затёрлась
print(list_range(8))
# имя должно быть уникальным, но как-то же задача решается...

In [19]:
# на помощь придут параметры по умолчанию
# это тот случай, когда "=" не надо окружать пробелами

def list_range(frm=0, to, step=1):
    return list(range(frm, to, step))

# Опять проблема. SyntaxError: non-default argument follows default argument
# Все обязательные параметры (без значений по умолчанию) должны идти в начале списка
# print(list_range(0, 10, 1))

SyntaxError: non-default argument follows default argument (<ipython-input-19-fe19e745260f>, line 4)

In [20]:
# решим проблему некрасиво

def list_range(arg0, arg1=None, arg2=None):
    if arg1 is None:
        return list(range(arg0))
    elif arg2 is None:
        return list(range(arg0, arg1))
    else:
        return list(range(arg0, arg1, arg2))

print(list_range(5))
print(list_range(2, 5))
print(list_range(0, 3, 1))

[0, 1, 2, 3, 4]
[2, 3, 4]
[0, 1, 2]


In [28]:
# пример разумного использования параметров по умолчанию
def build_letter(fromm, name_or_sir_or_madame='Sir/Madame'):
    response = "Dear " + name_or_sir_or_madame + "!\n\n" 
    response += "You have been fired from your current job as a Jython teacher at RMSE.\n\n"
    response += "Best regards,\n    " + fromm + "."
    return response

print(build_letter("Big Boss", "Python Pylekseev"))
print()
print(build_letter("Big Boss"))

Dear Python Pylekseev!

You have been fired from your current job as a Jython teacher at RMSE.

Best regards,
    Big Boss.

Dear Sir/Madame!

You have been fired from your current job as a Jython teacher at RMSE.

Best regards,
    Big Boss.


In [None]:
# Самостоятельная работа
# Написать функцию, которая печатает (то есть без return) 
# для заданных n_witches и step_witches 
"""
1 little
2 little
...
step_witches little witches
step_witches+1 little
...

n_witches witches in the sky

То есть для КАЖДЫХ step_witches шагов писать не little, a little witches
А в конце -- witches in the sky.

Можно заводить дополнительные функции.
"""

def witches_song(n_witches, step_witches):
    pass

In [None]:
# Самостоятельная работа
# Функция с параметрами: 
# - вектор(вектор =  список в нашем случае), 
# - список векторов,
# - параметр-строка, задающий метрику: "l1" или "l2" (евклидова; и это значение по умолчанию)
# ФУНКЦИЯ возвращает ближайший к вектору-параметру вектор из списка-параметра (пусть вас не смущает полный перебор)

# Задать функцию, проверить, что она работает на простых примерах, и запустить на случайных векторах
# Подсказка: метрики тоже можно вычислять в отдельных функциях

In [2]:
# Самостоятельная работа: надо обязательно обернуть всю работу с матрицами в осмысленные функции!

# У вас есть матрица, скажем, размера 100500 x 100000, в память не поместится.
# Известно, что у неё очень мало ненулей

""" Не рекомендуется к запуску!

rows = 100500
cols = 100000
matrix_a = []
for row in range(rows):
    matrix_a.append([0] * cols)

"""

# 1) подумайте, как бы вы её представили с помощью словарей так, чтобы она уместилась в память, 
#    и чтобы у вас был очень быстрый доступ к элементам по индексам, расскажите преподавателю
# 2) прочитайте матрицу A из файла, представив "новым" способом
# 3) транспонируйте её
# 4) запишите полученную матрицу B в новый файл
# 4.5) подумайте, как бы вы её представили так, чтобы вы могли эффективно 
#     умножать такие матрицы друг на друга (с потерями в скорости доступа); хватит ли здесь одного представления?
# 5) запрограммируйте "умножение" A на B (в прежнем или новом виде) -- 
#    и проверьте корректность на каких-нибудь своих маленьких матрицах
# 6) запишите и AB в файл

' Не рекомендуется к запуску!\n\nrows = 100500\ncols = 100000\nmatrix_a = []\nfor row in range(rows):\n    matrix_a.append([0] * cols)\n\n'