# Sequences

    "As you may have noticed, several of the operations mentioned work equally for texts, lists and tables. Texts, lists and tables together are called trains. 
    […] The FOR command also works generically on trains"

Мощь Python в том, что для многих схожих классов у нас есть общее множество поддерживаемых операций. Например, strings, lists, byte sequences, arrays и др. поддерживают iteration, slicing, sorting, contactenation и прочие общие операции.

Understanding и embracing данного принципа помогает нам не изобретать велосипед, а использовать общий интерфейс, который дает реализуемым классам поддержку уже принятых методов 

Рассмотрим некоторые примеры последовательностей, помимо изученного ранее string

## List

Most fundamental sequence, mutable and mixed-type

In [292]:
a = [1, 2, 3]
b = ['1', [2], 3, 4.]

### Базовые операции

In [293]:
a + b

[1, 2, 3, '1', [2], 3, 4.0]

In [294]:
a * 3

[1, 2, 3, 1, 2, 3, 1, 2, 3]

`Слайсы!`

In [295]:
b[::-1]

[4.0, 3, [2], '1']

Поддержка операций `in (not in), min, max, index (поиск), count`

In [296]:
'1' not in a

True

In [297]:
'1' in a + b

True

Для коллекций, содержащих разные типы, нужно явно определить компаратор

In [298]:
min(a), max(a)

(1, 3)

In [301]:
a.index(3), a.index(4)

ValueError: 4 is not in list

In [302]:
a.count(1), a.count(4)

(1, 0)

И, конечно же, уже знакомые нам

In [303]:
len(a), len(b)

(3, 4)

In [304]:
repr(a), a.__repr__()

('[1, 2, 3]', '[1, 2, 3]')

In [305]:
str(a), a.__str__()

('[1, 2, 3]', '[1, 2, 3]')

**Inplace** изменения в список

In [306]:
a.append(4)
a

[1, 2, 3, 4]

In [307]:
a.extend(b)
a

[1, 2, 3, 4, '1', [2], 3, 4.0]

In [308]:
a.remove(3)
a

[1, 2, 4, '1', [2], 3, 4.0]

In [309]:
a[0] = 100
a

[100, 2, 4, '1', [2], 3, 4.0]

**+=, *=**

In [310]:
a = [1, 2, 3]
print(id(a))

a *= 3
print(id(a))

a += [10, 11]
print(id(a))

139949830871232
139949830871232
139949830871232


`При использовании inplace операции над изменяемым обектом, адрес не меняется, это все тот же объект`

### Iterating

In [254]:
for element in b:
    print(element)

1
[2]
3
4.0


Можно итерироваться по нескольким сразу

In [311]:
c = [1, 2, 3]
d = [10, 20, 30, 40]

for val_one, val_two in zip(c, d):
    print(val_one, val_two)

1 10
2 20
3 30


По значению и индексу

In [313]:
for index, elem in enumerate(b, start=0):
    print(index, elem)

0 1
1 [2]
2 3
3 4.0


### Внутреннее устройство

Как ни странно, список в Python -- это на самом деле массив :/

То есть, внутри список предаставляется как непрерывный кусок памяти, каждый элемент -- это указатель на объект.

![array](https://media.geeksforgeeks.org/wp-content/uploads/array-2.png)

    The implementation uses a contiguous array of references to other objects, and keeps a pointer to this array and the array’s length in a list head structure.
    
    When items are appended or inserted, the array of references is resized. Some cleverness is applied to improve the performance of appending items repeatedly; when the array must be grown, some extra space is allocated so the next few times don’t require an actual resize. (Python docs)

**Что это дает на практике?**

Важно понимать сложность базовых операций с нашей структурой данных. И в зависимости от этого подбирать правильную структуру данных под определенную задачу.

Recap:
![o](https://wikimedia.org/api/rest_v1/media/math/render/svg/e45ededce98fd7f1d8866cff71d6311e6510e850), если $\exists M, x_0$:
![o_cond](https://wikimedia.org/api/rest_v1/media/math/render/svg/8248f95babb0ee9002984ae877f30dae8d710025)

Так, основное для list:

- Доступ по индексу -- O(1)
- Дописывание в конец / удаление с конца -- в среднем O(1)
- Вставка / удаление в произвольном месте -- O(n)
- min, max -- O(n)

O(1) означает выполнение за контантное время, O(n) -- время выполнения зависит от длины массива

### List Comprehensions

**Example**

In [314]:
symbols = '$¢£¥€¤'

In [315]:
codes = []
for s in symbols:
    codes.append(ord(s))

codes

[36, 162, 163, 165, 8364, 164]

In [316]:
codes = [ord(s) for s in symbols]

codes

[36, 162, 163, 165, 8364, 164]

Поддерживают условия, а также могут быть вложенными

In [317]:
[ord(s) for s in symbols if ord(s) > 200]

[8364]

In [318]:
[ord(s) if ord(s) > 200 else -1 for s in symbols]

[-1, -1, -1, -1, 8364, -1]

**Listcomp для убирания вложенности в списке**

In [319]:
a = [[1, 2], [3, 4], [5, 6], [7, 8]]

b = [item for inner_list in a for item in inner_list]

flattened_a = []
for inner_list in a:
    for item in inner_list:
        flattened_a.append(item)

assert b == [1, 2, 3, 4, 5, 6, 7, 8] 
assert flattened_a == [1, 2, 3, 4, 5, 6, 7, 8] 

### Generator expressions

Как list comprehension, только создает и выдает элементы на лету

In [320]:
gen = (ord(s) for s in symbols)
gen

<generator object <genexpr> at 0x7f48a22f26d0>

In [321]:
for i in gen:
    print(i)

36
162
163
165
8364
164


In [322]:
for i in gen:
    print(i)

Почему пусто?
Генератор "отдал" все созданные элементы, больше в нем нет :)

## Range

range() function generates the immutable sequence (of type rage) of numbers starting from the given start integer to the stop integer

`range(start, stop, step)`

In [323]:
range(10)

range(0, 10)

In [324]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [325]:
a = range(1, 10, 2)

list(a)

[1, 3, 5, 7, 9]

In [329]:
for i in a:
    print(i)

0
1
2
3
4
5
6
7
8
9


Поддерживает индексацию

In [327]:
a = range(0, 10)

In [328]:
a[1], a.index(3)

(1, 3)

range не генерирует числа сразу же, а делает это one-by-one. Это хорошо для памяти и скорости

In [330]:
a = range(1000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000)

## Tuples

Очень похоже на списки, только неизменяемые

In [331]:
a = (1, 2, 3,)

In [332]:
a[0] = 3

TypeError: 'tuple' object does not support item assignment

**Be careful!**
Если внутренний элемент изменяемый, то можно его менять inplace

In [333]:
a = (1, [1, 2], 3)
a[1].append(4)

In [334]:
a

(1, [1, 2, 4], 3)

**Unpacking**

Работает с любым итерируемым объектом в Python

In [335]:
coordinates = (10., -11.)

lat, lon = coordinates

lat, lon

(10.0, -11.0)

In [336]:
lon, lat = lat, lon

Лишние значения можно свернуть

In [339]:
list(range(10))

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [337]:
a, b, *rest = range(10)

In [338]:
a, b

(0, 1)

In [340]:
rest

[2, 3, 4, 5, 6, 7, 8, 9]

или

In [341]:
first, *rest, last = range(10)

In [342]:
first, last

(0, 9)

In [343]:
rest

[1, 2, 3, 4, 5, 6, 7, 8]

**+=, *=**

In [344]:
a = (1, 2, 3)
print(id(a))

a *= 3
print(id(a))

a += (10, 11)
print(id(a))

139949831274400
139949935372112
139949826690656


Tuple (кортеж) -- неизменяемый объект, поэтому каждый раз создается новый

## Named Tuples

In [345]:
from collections import namedtuple

In [346]:
Subject = namedtuple('Subject', 'name difficulty')

In [348]:
python_course = Subject('Python', 1)
python_course

Subject(name='Python', difficulty=1)

In [349]:
python_course[0], python_course[1]

('Python', 1)

In [350]:
python_course.name, python_course.difficulty

('Python', 1)

## Arrays

Если очень хочется скорости для работы с числами, то можно пользоваться почти C-шными массивами

In [145]:
from array import array

'b' -- typecode для типа byte (целые от -128 до 127)

In [356]:
bytes_array = array('b', (i for i in range(120)))

In [352]:
bytes_array

array('b', [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 80, 81, 82, 83, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114, 115, 116, 117, 118, 119])

In [353]:
bytes_array.append(127)

Строгость типа не позволяет записать что-то помимо него

In [354]:
bytes_array.append(256)

OverflowError: signed char is greater than maximum

есть `array.fromfile() и array.tofile()` для быстрой записи и чтения

## Deques

List хорош для доступа к произвольному элементу и для дополнения и удаления с конца. А если нужно сначала, а читать из середины не особо требуется? **deque** как решение

**deque** -- двусторонняя очередь, запись и чтения с любых концов O(1)

In [359]:
from collections import deque

last_seen = deque(maxlen=10)
last_seen

deque([])

In [361]:
for i in range(100):
    last_seen.appendleft(i)

In [362]:
last_seen

deque([99, 98, 97, 96, 95, 94, 93, 92, 91, 90])

In [363]:
last_seen.rotate()
last_seen

deque([90, 99, 98, 97, 96, 95, 94, 93, 92, 91])

# Dicts

## Creation

In [406]:
some_empty_dict = dict()
print(some_empty_dict, type(some_empty_dict))

{} <class 'dict'>


### Simple example

In [407]:
student_card = {
    'name': 'Denis',
    'year': 2015,
    'core subjects': ('Statistics', 'Algorimthms'),
    'optional subjects': ['Urban Studies', 'Basic Physics'],
    42: 'always the answer',
    (42,): 'always the answer',
}

student_card

{'name': 'Denis',
 'year': 2015,
 'core subjects': ('Statistics', 'Algorimthms'),
 'optional subjects': ['Urban Studies', 'Basic Physics'],
 42: 'always the answer',
 (42,): 'always the answer'}

## Внутри

Ключ может быть только hashable

    An object is hashable if it has a hash value which never changes during its lifetime (it
    needs a __hash__() method), and can be compared to other objects (it needs an
    __eq__() method). Hashable objects which compare equal must have the same hash
    value. […]

Данное требование существует, потому что внутри dict -- это hash таблица!

Операции доставания значения по ключу, добавления и проверки нахождения -- в среднем **O(1)**. 

` Может быть O(n), если у вас отвратительная хеш-функция `

![hashtable](https://upload.wikimedia.org/wikipedia/commons/thumb/7/7d/Hash_table_3_1_1_0_1_0_0_SP.svg/1200px-Hash_table_3_1_1_0_1_0_0_SP.svg.png)

## Basic operations

### Get values

In [413]:
student_card.get('name', 'key is not there')

'Denis'

### Remove values

In [417]:
student_card.pop((42,))

'always the answer'

In [418]:
student_card

{'name': 'Denis',
 'year': 2015,
 'core subjects': ('Statistics', 'Algorimthms'),
 'optional subjects': ['Urban Studies', 'Basic Physics'],
 42: 'always the answer'}

### Update with many `key:value` pairs

In [419]:
student_card.update({'a': 1, 'b': 2})

In [420]:
student_card

{'name': 'Denis',
 'year': 2015,
 'core subjects': ('Statistics', 'Algorimthms'),
 'optional subjects': ['Urban Studies', 'Basic Physics'],
 42: 'always the answer',
 'a': 1,
 'b': 2}

### Iterate over

In [421]:
for key, value in student_card.items():
    print(key, value)

name Denis
year 2015
core subjects ('Statistics', 'Algorimthms')
optional subjects ['Urban Studies', 'Basic Physics']
42 always the answer
a 1
b 2


In [429]:
student_card.values()

dict_values(['Denis', 2015, ('Statistics', 'Algorimthms'), ['Urban Studies', 'Basic Physics'], 'always the answer', 1, 2])

### clear

In [432]:
student_card.clear()

In [433]:
student_card

{}

## Sample task

### Let's count unique symbols in a string!

In [1]:
sample_string = 'Eddie ate dynamite, goodbye Eddie'

In [464]:
symbols = {}

# your code
symbols = {s.lower(): sample_string.lower().count(s) for s in sample_string}

In [463]:
symbols

{'e': 7,
 'd': 6,
 'i': 3,
 ' ': 4,
 'a': 2,
 't': 2,
 'y': 2,
 'n': 1,
 'm': 1,
 ',': 1,
 'g': 1,
 'o': 2,
 'b': 1}

What can we do to make our solution above better?

Bonus: try to use `defaultdict` *(from collections import defaultdict)*

### Count unique words in a sentence.

You may want to use:
- `re.split` -- split words in string by non-word charachters

In [2]:
sample_text = "The secret menu reveals a business model that goes beyond a right to repair issue, Sullivan argues. It represents, as he describes it, nothing short of a milkshake shakedown: Sell franchisees a complicated and fragile machine. Prevent them from figuring out why it constantly breaks. Take a cut of the distributors’ profit from the repairs. “It’s a huge money maker to have a customer that’s purposefully, intentionally blind and unable to make very fundamental changes to their own equipment,” Sullivan says. And McDonald’s presides over all of it, he says, insisting on loyalty to its longtime supplier. (Resist the McDonald’s monarchy on decisions like equipment, and the corporation can end a restaurant’s lease on the literal ground beneath it, which McDonald's owns under its franchise agreement.)"

In [8]:
text_new = re.split("\s|\W{2,}", sample_text.lower())[:-1]
text_new

['the',
 'secret',
 'menu',
 'reveals',
 'a',
 'business',
 'model',
 'that',
 'goes',
 'beyond',
 'a',
 'right',
 'to',
 'repair',
 'issue',
 'sullivan',
 'argues',
 'it',
 'represents',
 'as',
 'he',
 'describes',
 'it',
 'nothing',
 'short',
 'of',
 'a',
 'milkshake',
 'shakedown',
 'sell',
 'franchisees',
 'a',
 'complicated',
 'and',
 'fragile',
 'machine',
 'prevent',
 'them',
 'from',
 'figuring',
 'out',
 'why',
 'it',
 'constantly',
 'breaks',
 'take',
 'a',
 'cut',
 'of',
 'the',
 'distributors',
 'profit',
 'from',
 'the',
 'repairs',
 'it’s',
 'a',
 'huge',
 'money',
 'maker',
 'to',
 'have',
 'a',
 'customer',
 'that’s',
 'purposefully',
 'intentionally',
 'blind',
 'and',
 'unable',
 'to',
 'make',
 'very',
 'fundamental',
 'changes',
 'to',
 'their',
 'own',
 'equipment',
 'sullivan',
 'says',
 'and',
 'mcdonald’s',
 'presides',
 'over',
 'all',
 'of',
 'it',
 'he',
 'says',
 'insisting',
 'on',
 'loyalty',
 'to',
 'its',
 'longtime',
 'supplier',
 'resist',
 'the',
 'mc

In [9]:
words = {word : text_new.count(word) for word in text_new}

In [4]:
import re

words = {}

# your code
for word in re.split('\W', sample_text):  # split by non-word chars
    word = word.lower()
    if word.isalnum():
        if word in words:
            words[word] += 1
        else:
            words[word] = 1
words

In [168]:
words

{'the': 6,
 'secret': 1,
 'menu': 1,
 'reveals': 1,
 'a': 8,
 'business': 1,
 'model': 1,
 'that': 2,
 'goes': 1,
 'beyond': 1,
 'right': 1,
 'to': 5,
 'repair': 1,
 'issue': 1,
 'sullivan': 2,
 'argues': 1,
 'it': 6,
 'represents': 1,
 'as': 1,
 'he': 2,
 'describes': 1,
 'nothing': 1,
 'short': 1,
 'of': 3,
 'milkshake': 1,
 'shakedown': 1,
 'sell': 1,
 'franchisees': 1,
 'complicated': 1,
 'and': 4,
 'fragile': 1,
 'machine': 1,
 'prevent': 1,
 'them': 1,
 'from': 2,
 'figuring': 1,
 'out': 1,
 'why': 1,
 'constantly': 1,
 'breaks': 1,
 'take': 1,
 'cut': 1,
 'distributors': 1,
 'profit': 1,
 'repairs': 1,
 's': 6,
 'huge': 1,
 'money': 1,
 'maker': 1,
 'have': 1,
 'customer': 1,
 'purposefully': 1,
 'intentionally': 1,
 'blind': 1,
 'unable': 1,
 'make': 1,
 'very': 1,
 'fundamental': 1,
 'changes': 1,
 'their': 1,
 'own': 1,
 'equipment': 2,
 'says': 2,
 'mcdonald': 3,
 'presides': 1,
 'over': 1,
 'all': 1,
 'insisting': 1,
 'on': 3,
 'loyalty': 1,
 'its': 2,
 'longtime': 1,
 'sup

# Sets

Коллекция уникальных объектов

In [438]:
a = ['one', 'two', 'two', 'one']
set(a)

{'one', 'two'}

set -- mutable, frozenset -- immutable

In [439]:
first_set = {1, 2, 3, 4, 5}
second_set = {4, 5, 6, 7, 8}

In [440]:
first_set & second_set, first_set.intersection(second_set)

({4, 5}, {4, 5})

In [441]:
first_set | second_set, first_set.union(second_set)

({1, 2, 3, 4, 5, 6, 7, 8}, {1, 2, 3, 4, 5, 6, 7, 8})

Внутри хеш-таблица, что дает нам операцию проверки вхождения за O(1) при хорошей хеш-функции

Пример:

In [442]:
import random

In [447]:
good_values = set(range(100))

filtered_values = []
for i in range(100000):
    val = random.randint(1, 500)
    if val in good_values:
        filtered_values.append(val)

In [448]:
assert len(list(filter(lambda x: x >= 100, filtered_values))) == 0