# Sequences

    "As you may have noticed, several of the operations mentioned work equally for texts, lists and tables. Texts, lists and tables together are called trains. 
    […] The FOR command also works generically on trains"

Мощь Python в том, что для многих схожих классов у нас есть общее множество поддерживаемых операций. Например, strings, lists, byte sequences, arrays и др. поддерживают iteration, slicing, sorting, contactenation и прочие общие операции.

Understanding и embracing данного принципа помогает нам не изобретать велосипед, а использовать общий интерфейс, который дает реализуемым классам поддержку уже принятых методов 

Рассмотрим некоторые примеры последовательностей, помимо изученного ранее string

## List

Most fundamental sequence, mutable and mixed-type

In [253]:
a = [1, 2, 3]
b = ['1', [2], 3, 4.]

### Базовые операции

In [2]:
a + b

[1, 2, 3, '1', [2], 3, 4.0]

In [3]:
a * 3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

`Слайсы!`

In [7]:
b[::-1]

[4.0, 3, [2], '1']

Поддержка операций `in (not in), min, max, index (поиск), count`

In [10]:
'1' not in a

True

In [9]:
'1' in a + b

True

Для коллекций, содержащих разные типы, нужно явно определить компаратор

In [16]:
min(a), max(a)

(1, 3)

In [21]:
a.index(3), a.index(4)

ValueError: 4 is not in list

In [23]:
a.count(1), a.count(4)

(1, 0)

И, конечно же, уже знакомые нам

In [25]:
len(a), len(b)

(3, 4)

In [27]:
repr(a), a.__repr__()

('[1, 2, 3]', '[1, 2, 3]')

In [28]:
str(a), a.__str__()

('[1, 2, 3]', '[1, 2, 3]')

**Inplace** изменения в список

In [29]:
a.append(4)
a

[1, 2, 3, 4]

In [30]:
a.extend(b)
a

[1, 2, 3, 4, '1', [2], 3, 4.0]

In [31]:
a.remove(3)
a

[1, 2, 4, '1', [2], 3, 4.0]

In [32]:
a[0] = 100
a

[100, 2, 4, '1', [2], 3, 4.0]

**+=, *=**

In [141]:
a = [1, 2, 3]
print(id(a))

a *= 3
print(id(a))

a += [10, 11]
print(id(a))

139949936020128
139949936020128
139949936020128


`При использовании inplace операции над изменяемым обектом, адрес не меняется, это все тот же объект`

### Iterating

In [254]:
for element in b:
    print(element)

1
[2]
3
4.0


Можно итерироваться по нескольким сразу

In [255]:
c = [1, 2, 3]
d = [10, 20, 30, 40]

for val_one, val_two in zip(c, d):
    print(val_one, val_two)

1 10
2 20
3 30


По значению и индексу

In [256]:
for index, elem in enumerate(b, start=0):
    print(index, elem)

0 1
1 [2]
2 3
3 4.0


### Внутреннее устройство

Как ни странно, список в Python -- это на самом деле массив :/

То есть, внутри список предаставляется как непрерывный кусок памяти, каждый элемент -- это указатель на объект.

![array](https://media.geeksforgeeks.org/wp-content/uploads/array-2.png)

    The implementation uses a contiguous array of references to other objects, and keeps a pointer to this array and the array’s length in a list head structure.
    
    When items are appended or inserted, the array of references is resized. Some cleverness is applied to improve the performance of appending items repeatedly; when the array must be grown, some extra space is allocated so the next few times don’t require an actual resize. (Python docs)

**Что это дает на практике?**

Важно понимать сложность базовых операций с нашей структурой данных. И в зависимости от этого подбирать правильную структуру данных под определенную задачу.

Recap:
![o](https://wikimedia.org/api/rest_v1/media/math/render/svg/e45ededce98fd7f1d8866cff71d6311e6510e850), если $\exists M, x_0$:
![o_cond](https://wikimedia.org/api/rest_v1/media/math/render/svg/8248f95babb0ee9002984ae877f30dae8d710025)

Так, основное для list:

- Доступ по индексу -- O(1)
- Дописывание в конец / удаление с конца -- в среднем O(1)
- Вставка / удаление в произвольном месте -- O(n)
- min, max -- O(n)

O(1) означает выполнение за контантное время, O(n) -- время выполнения зависит от длины массива

### List Comprehensions

**Example**

In [52]:
symbols = '$¢£¥€¤'

In [54]:
codes = []
for s in symbols:
    codes.append(ord(s))

codes

[36, 162, 163, 165, 8364, 164]

In [56]:
codes = [ord(s) for s in symbols]

codes

[36, 162, 163, 165, 8364, 164]

Поддерживают условия, а также могут быть вложенными

In [58]:
[ord(s) for s in symbols if ord(s) > 200]

[8364]

In [61]:
[ord(s) if ord(s) > 200 else -1 for s in symbols]

[-1, -1, -1, -1, 8364, -1]

**Listcomp для убирания вложенности в списке**

In [68]:
a = [[1, 2], [3, 4], [5, 6], [7, 8]]

b = [item for inner_list in a for item in inner_list]

flattened_a = []
for inner_list in a:
    for item in inner_list:
        flattened_a.append(item)

assert b == [1, 2, 3, 4, 5, 6, 7, 8] 
assert flattened_a == [1, 2, 3, 4, 5, 6, 7, 8] 

### Generator expressions

Как list comprehension, только создает и выдает элементы на лету

In [78]:
gen = (ord(s) for s in symbols)
gen

<generator object <genexpr> at 0x7f489b724cd0>

In [79]:
for i in gen:
    print(i)

36
162
163
165
8364
164


In [81]:
for i in gen:
    print(i)

Почему пусто?
Генератор "отдал" все созданные элементы, больше в нем нет :)

## Range

range() function generates the immutable sequence (of type rage) of numbers starting from the given start integer to the stop integer

`range(start, stop, step)`

In [95]:
range(10)

range(0, 10)

In [96]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [98]:
a = range(1, 10, 2)

list(a)

[1, 3, 5, 7, 9]

In [100]:
for i in a:
    print(i)

1
3
5
7
9


Поддерживает индексацию

In [109]:
a = range(0, 10)

In [110]:
a[1], a.index(3)

(1, 3)

range не генерирует числа сразу же, а делает это one-by-one. Это хорошо для памяти и скорости

In [112]:
a = range(1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000)

## Tuples

Очень похоже на списки, только неизменяемые

In [69]:
a = (1, 2, 3,)

In [71]:
a[0] = 3

TypeError: 'tuple' object does not support item assignment

**Be careful!**
Если внутренний элемент изменяемый, то можно его менять inplace

In [72]:
a = (1, [1, 2], 3)
a[1].append(4)

In [73]:
a

(1, [1, 2, 4], 3)

**Unpacking**

Работает с любым итерируемым объектом в Python

In [75]:
coordinates = (10., -11.)

lat, lon = coordinates

lat, lon

(10.0, -11.0)

Лишние значения можно свернуть

In [114]:
a, b, *rest = range(10)

In [115]:
a, b

(0, 1)

In [116]:
rest

[2, 3, 4, 5, 6, 7, 8, 9]

или

In [117]:
first, *rest, last = range(10)

In [118]:
first, last

(0, 9)

In [119]:
rest

[1, 2, 3, 4, 5, 6, 7, 8]

**+=, *=**

In [144]:
a = (1, 2, 3)
print(id(a))

a *= 3
print(id(a))

a += (10, 11)
print(id(a))

139949935681696
139950438630464
139950438633344


Tuple (кортеж) -- неизменяемый объект, поэтому каждый раз создается новый

## Named Tuples

In [120]:
from collections import namedtuple

In [130]:
Subject = namedtuple('Subject', 'name difficulty')

In [132]:
python_course = Subject('Python', 1)
python_course

Subject(name='Python', difficulty=1)

In [137]:
python_course[0], python_course[1]

('Python', 1)

In [139]:
python_course.name, python_course.difficulty

('Python', 1)

## Arrays

Если очень хочется скорости для работы с числами, то можно пользоваться почти C-шными массивами

In [145]:
from array import array

'b' -- typecode для типа byte (целые от -128 до 128)

In [148]:
bytes_array = array('b', (i for i in range(120)))

In [149]:
bytes_array

array('b', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119])

In [150]:
bytes_array.append(127)

Строгость типа не позволяет записать что-то помимо него

In [152]:
bytes_array.append(256)

OverflowError: signed char is greater than maximum

есть `array.fromfile() и array.tofile()` для быстрой записи и чтения

## Deques

List хорош для доступа к произвольному элементу и для дополнения и удаления с конца. А если нужно сначала, а читать из середины не особо требуется? **deque** как решение

**deque** -- двусторонняя очередь, запись и чтения с любых концов O(1)

In [172]:
from collections import deque

last_seen = deque(maxlen=10)
last_seen

deque([])

In [156]:
for i in range(100):
    last_seen.appendleft(i)

In [157]:
last_seen

deque([99, 98, 97, 96, 95, 94, 93, 92, 91, 90])

In [170]:
last_seen.rotate()
last_seen

deque([90, 99, 98, 97, 96, 95, 94, 93, 92, 91])

# Functions

Functions -- "first class objects":
    
    - создаются в рантайме
    - присваиваются переменным или элементам в структурах данных
    - используются как аргумент в других функциях
    - возвращаются как результат работы функций
    
Ровно так же работают, например, string, list и прочие рассмотренные ранее примеры 

## Базовый синтаксис

### Аргументы и вызов

In [206]:
def func():  # name and function arguments
    '''
    Doc string to be shown in help
    '''
    print("Hello, world!") # body

func()

Hello, world!


In [207]:
help(func)

Help on function func in module __main__:

func()
    Doc string to be shown in help



In [210]:
func.__doc__

'\n    Doc string to be shown in help\n    '

Пример простейшей функции с аргументами

In [184]:
def func(a, b):
    print(a + b)

func(2, 3)

5


Аргументы функций могут иметь дефолтные значения

In [186]:
def func(a, b='value'):
    print(a, b)

In [179]:
func(1)  # value -- дефолтное значение

1 value


При вызове функции мы оперируем понятиями `positional argument` и `keyword argument`

In [181]:
func(a=10, b='another_value')  # Вызвали с использованием keyword arguments

10 another_value


In [187]:
func(10, 'another_value')  # Вызвали с использованием positional arguments

10 another_value


В сигнатуре можно явно задать необходимость указания аргументов по имени

In [188]:
def func(a, b='value', *, c='important named arg'):
    print(a, b, c)

In [189]:
func(1, 'val', 'val2')

TypeError: func() takes from 1 to 2 positional arguments but 3 were given

In [191]:
func(1, 'val')

1 val important named arg


In [190]:
func(1, 'val', c='val2')

1 val val2


### return

Функция может возвращать что-то

In [192]:
def func(a, b='value', *, c='important named arg'):
    return a, b

In [197]:
a = 1
b = 'some_val'

c, d = func(a, b)

In [200]:
id(a), id(b)

(94169343939328, 139949829460080)

In [201]:
id(c), id(d)

(94169343939328, 139949829460080)

## Higher order functions

Что-то там было про функции в качестве аргументов и возвращаемых значений...

Рассмотрим пример на списке, у которого элементы имеют разные типы

In [225]:
sample_list = [1, [2.], '3 ', (4, 5), 8.]
sample_list

[1, [2.0], '3 ', (4, 5), 8.0]

Как бы нам его посортировать...

In [226]:
sorted(sample_list)

TypeError: '<' not supported between instances of 'list' and 'int'

Не понятно, как сравнивать разные типы. Но теперь-то мы можем создавать свои функции, давайте исправим

In [229]:
def my_key(element):
    return len(str(element))

sorted(sample_list, key=my_key)

[1, '3 ', 8.0, [2.0], (4, 5)]

Еще один пример -- функция **map**

In [240]:
int_texts = '123456'
map(int, int_texts)

<map at 0x7f489b8777d0>

Возвращает объект, по которому нужно проитерироваться

In [242]:
for elem in map(int, int_texts):
    print(elem)

1
2
3
4
5
6


In [243]:
list(map(int, int_texts))

[1, 2, 3, 4, 5, 6]

## Анонимные функции

Ключевое слово **lambda**, краткое объявление функции как выражения.

Отлично может использоваться в качестве аргумента для функций высших порядков

In [230]:
sorted(sample_list, key=lambda element: len(str(element)))

[1, '3 ', 8.0, [2.0], (4, 5)]

Вспомним пример с listcomp

In [234]:
symbols = '$¢£¥€¤'
filtered_symbols = [s for s in symbols if ord(s) > 200]
filtered_symbols

['€']

Можно использовать функциональный стиль и написать это же выражение через `filter`

In [244]:
list(filter(lambda elem: ord(elem) > 200, symbols))

['€']

## Generators

Мы уже упоминали generator expressions, а теперь можем сделать такой и сами

In [246]:
def my_custom_range(start, end):
    while start < end:
        yield start
        start += 1

In [251]:
my_custom_range(0, 10)

<generator object my_custom_range at 0x7f489b90bbd0>

In [249]:
for i in my_custom_range(0, 10):
    print(i)

0
1
2
3
4
5
6
7
8
9


## Decorators

Декоратор -- обертка над функцией. Позволяет сделать что-то до и после вызова передаваемой функции.

Для этого функции декоратора передается декорируемая функция, а внутри создается новая, которая будет выполняться вместе с декорируемой. Ей передаются такие же аргументы, и в ней же пишется код того, что будет совершаться до и после запуска переданной функции, а между этими блоками будет запускаться сама декорируемая функция. Внешняя функция возвращает ссылку на получившуюся функцию

In [287]:
def my_decorator(func):
    def decorated(a, b):  # название можно менять
        print("doing smth before")
        func(a, b)
        print("doing smth after")
    return decorated

def func(a, b):
    print(a + b)

func = my_decorator(func)
func(2, 3)

doing smth before
5
doing smth after


In [282]:
@my_decorator
def new_func(a, b):
    print(a + b)

In [283]:
new_func(1, 2)

doing smth before
3
doing smth after


## Рекурсия

Функция может вызывать саму себя внутри. Классический пример -- вычисление факториала

In [288]:
def fact(n):
    if n == 0:
        return 1  # условие выхода из рекурсии
    return n * fact(n - 1)

In [290]:
fact(4)

24

In [291]:
1 * 2 * 3 * 4

24

# Dicts

## Creation

In [137]:
some_empty_dict = dict()
print(some_empty_dict, type(some_empty_dict))

{} <class 'dict'>


### Simple example

In [141]:
student_card = {
    'name': 'Denis',
    'year': 2015,
    'core subjects': ('Statistics', 'Algorimthms'),
    'optional subjects': ['Urban Studies', 'Basic Physics'],
    42: 'always the answer',
    (42,): 'always the answer',
}

student_card

{'name': 'Denis',
 'year': 2015,
 'core subjects': ('Statistics', 'Algorimthms'),
 'optional subjects': ['Urban Studies', 'Basic Physics'],
 42: 'always the answer',
 (42,): 'always the answer'}

## Внутри

Ключ может быть только hashable

    An object is hashable if it has a hash value which never changes during its lifetime (it
    needs a __hash__() method), and can be compared to other objects (it needs an
    __eq__() method). Hashable objects which compare equal must have the same hash
    value. […]

Данное требование существует, потому что внутри dict -- это hash таблица!

Операции доставания значения по ключу, добавления и проверки нахождения -- в среднем **O(1)**. 

` Может быть O(n), если у вас отвратительная хеш-функция `

![hashtable](https://upload.wikimedia.org/wikipedia/commons/thumb/7/7d/Hash_table_3_1_1_0_1_0_0_SP.svg/1200px-Hash_table_3_1_1_0_1_0_0_SP.svg.png)

## Basic operations

### Get values

In [146]:
student_card.get('name', 'key is not there')

'Denis'

### Remove values

In [149]:
student_card.pop((42,))

'always the answer'

In [150]:
student_card

{'name': 'Denis',
 'year': 2015,
 'core subjects': ('Statistics', 'Algorimthms'),
 'optional subjects': ['Urban Studies', 'Basic Physics']}

### Update with many `key:value` pairs

In [153]:
student_card.update({'a': 1, 'b': 2})

In [154]:
student_card

{'name': 'Denis',
 'year': 2015,
 'core subjects': ('Statistics', 'Algorimthms'),
 'optional subjects': ['Urban Studies', 'Basic Physics'],
 'surname': 'Bel',
 'a': 1,
 'b': 2}

### Iterate over

In [157]:
for key, value in student_card.items():
    print(key, value)

name Denis
year 2015
core subjects ('Statistics', 'Algorimthms')
optional subjects ['Urban Studies', 'Basic Physics']
surname Bel
a 1
b 2


In [158]:
student_card.keys()

dict_keys(['name', 'year', 'core subjects', 'optional subjects', 'surname', 'a', 'b'])

In [159]:
student_card.values()

dict_values(['Denis', 2015, ('Statistics', 'Algorimthms'), ['Urban Studies', 'Basic Physics'], 'Bel', 1, 2])

### clear

In [160]:
student_card.clear()

In [161]:
student_card

{}

## Sample task

### Let's count unique symbols in a string!

In [257]:
sample_string = 'Eddie ate dynamite, goodbye Eddie'

In [258]:
symbols = {}

# your code

In [165]:
symbols

{'e': 7,
 'd': 6,
 'i': 3,
 ' ': 4,
 'a': 2,
 't': 2,
 'y': 2,
 'n': 1,
 'm': 1,
 ',': 1,
 'g': 1,
 'o': 2,
 'b': 1}

What can we do to make our solution above better?

Bonus: try to use `defaultdict` *(from collections import defaultdict)*

### Count unique words in a sentence.

You may want to use:
- `re.split` -- split words in string by non-word charachters

In [166]:
sample_text = "The secret menu reveals a business model that goes beyond a right to repair issue, Sullivan argues. It represents, as he describes it, nothing short of a milkshake shakedown: Sell franchisees a complicated and fragile machine. Prevent them from figuring out why it constantly breaks. Take a cut of the distributors’ profit from the repairs. “It’s a huge money maker to have a customer that’s purposefully, intentionally blind and unable to make very fundamental changes to their own equipment,” Sullivan says. And McDonald’s presides over all of it, he says, insisting on loyalty to its longtime supplier. (Resist the McDonald’s monarchy on decisions like equipment, and the corporation can end a restaurant’s lease on the literal ground beneath it, which McDonald's owns under its franchise agreement.)"

In [259]:
import re

words = {}

# your code

In [168]:
words

{'the': 6,
 'secret': 1,
 'menu': 1,
 'reveals': 1,
 'a': 8,
 'business': 1,
 'model': 1,
 'that': 2,
 'goes': 1,
 'beyond': 1,
 'right': 1,
 'to': 5,
 'repair': 1,
 'issue': 1,
 'sullivan': 2,
 'argues': 1,
 'it': 6,
 'represents': 1,
 'as': 1,
 'he': 2,
 'describes': 1,
 'nothing': 1,
 'short': 1,
 'of': 3,
 'milkshake': 1,
 'shakedown': 1,
 'sell': 1,
 'franchisees': 1,
 'complicated': 1,
 'and': 4,
 'fragile': 1,
 'machine': 1,
 'prevent': 1,
 'them': 1,
 'from': 2,
 'figuring': 1,
 'out': 1,
 'why': 1,
 'constantly': 1,
 'breaks': 1,
 'take': 1,
 'cut': 1,
 'distributors': 1,
 'profit': 1,
 'repairs': 1,
 's': 6,
 'huge': 1,
 'money': 1,
 'maker': 1,
 'have': 1,
 'customer': 1,
 'purposefully': 1,
 'intentionally': 1,
 'blind': 1,
 'unable': 1,
 'make': 1,
 'very': 1,
 'fundamental': 1,
 'changes': 1,
 'their': 1,
 'own': 1,
 'equipment': 2,
 'says': 2,
 'mcdonald': 3,
 'presides': 1,
 'over': 1,
 'all': 1,
 'insisting': 1,
 'on': 3,
 'loyalty': 1,
 'its': 2,
 'longtime': 1,
 'sup

# Sets

Коллекция уникальных объектов

In [261]:
a = ['one', 'two', 'two', 'one']
set(a)

{'one', 'two'}

set -- mutable, frozenset -- immutable

In [262]:
first_set = {1, 2, 3, 4, 5}
second_set = {4, 5, 6, 7, 8}

In [264]:
first_set & second_set, first_set.intersection(second_set)

({4, 5}, {4, 5})

In [265]:
first_set | second_set, first_set.union(second_set)

({1, 2, 3, 4, 5, 6, 7, 8}, {1, 2, 3, 4, 5, 6, 7, 8})

Внутри хеш-таблица, что дает нам операцию проверки вхождения за O(1) при хорошей хеш-функции

Пример:

In [266]:
import random

In [270]:
good_values = set(range(100))

filtered_values = []
for i in range(100000):
    val = random.randint(1, 500)
    if val in good_values:
        filtered_values.append(val)

In [274]:
assert len(list(filter(lambda x: x >= 100, filtered_values))) == 0