# [Программирование на Python (SCS)](https://compscicenter.ru/courses/python/2015-autumn/classes/)
## Лектор Сергей Лебедев


|     **Дата**     |   **Название**  |     |
|:----------------:|:---------------:|:-----------------:|
| 5 октября 2015      |    Встроенные коллекции и модуль collections | 

# 5. Встроенные коллекции и модуль collections

Встроенных коллекций в Python немного: **tuple**, **list**, **set** и **dict**.

Мы уже кратко обсуждали базовые методы работы с ними.
Создать коллекцию можно с помощью литералов или
конструктора типов:

In [2]:
print(tuple(), (0, ) * 2)
print(set())
print(list(), [0] * 2)
print(dict(), {})

() (0, 0)
set()
[] [0, 0]
{} {}


- Функция len возвращает длину переданной коллекции.
- elem in collection и elem not in collection
проверяют, содержится ли в коллекции элемент,
- Удалить элемент по ключу или по индексу можно с
помощью оператора del .


# Слайд 2. Кортеж и литералы
Литералы кортежа — обычные скобки, почти всегда их можно и нужно опускать:

Эта рекомендация не касается одноэлементых кортежей!

In [7]:
x, y = 5, 4
point = x, y
date = "October", 5
print(point, date)

(5, 4) ('October', 5)


# Кортеж и слайсы
С помощью слайсов можно выделить подпоследовательность в любой коллекции, в частности, в
кортеже:

In [10]:
person = ("George", "Carlin", "May", 12, 1937)
name, birthday = person[:2], person[2:]
print(name)
print(birthday)

('George', 'Carlin')
('May', 12, 1937)


Избавиться от “магических” констант помогут **именованные слайсы**:

In [12]:
NAME, BIRTHDAY = slice(2), slice(2, None)
print(person[NAME])
print(person[BIRTHDAY])

('George', 'Carlin')
('May', 12, 1937)


# Cлайсы и функция reversed
Напоминание: функция reversed принимает одну последовательность и возвращает другую, перечисляющую
элементы первой в обратном порядке:

In [19]:
print(tuple(reversed((1, 2, 3))))
# Эту операцию также можно выразить через слайс с отрицательным шагом:
print((1, 2, 3)[::-1])

(3, 2, 1)
(3, 2, 1)


# Конкатенация кортежей
Кортежи можно конкатенировать с помощью бинарной операции + . Результатом конкатенации всегда является новый кортеж:

In [21]:
xs, ys = (1, 2), (3, )
print(id(xs), id(ys))
print(id(xs + ys))  # id суммы кортежей - новый кортеж
print((xs + ys))  

82582088 89106696
89085096
(1, 2, 3)


Сравнение кортежей происходит в лексикографическом порядке, причём длина учитывается, только если одна последовательность является префиксом другой:

In [23]:
print((1, 2, 3) < (1, 2, 4))
print((1, 2, 3, 4) < (1, 2, 4))
print((1, 2) < (1, 2, 42))

True
True
True


# collections.namedtuple
Функция `namedtuple` возвращает тип кортежа, специализированный на фиксированное множество полей:

In [29]:
from collections import namedtuple
Person = namedtuple("Person", ["name", "age"])
p = Person("George", age=77)
print(p._fields)
print( p.name, p.age)
print(p._asdict())
print(p._replace(name="Bill"))

('name', 'age')
George 77
OrderedDict([('name', 'George'), ('age', 77)])
Person(name='Bill', age=77)


In [30]:
help(namedtuple)

Help on function namedtuple in module collections:

namedtuple(typename, field_names, *, rename=False, defaults=None, module=None)
    Returns a new subclass of tuple with named fields.
    
    >>> Point = namedtuple('Point', ['x', 'y'])
    >>> Point.__doc__                   # docstring for the new class
    'Point(x, y)'
    >>> p = Point(11, y=22)             # instantiate with positional args or keywords
    >>> p[0] + p[1]                     # indexable like a plain tuple
    33
    >>> x, y = p                        # unpack like a regular tuple
    >>> x, y
    (11, 22)
    >>> p.x + p.y                       # fields also accessible by name
    33
    >>> d = p._asdict()                 # convert to a dictionary
    >>> d['x']
    11
    >>> Point(**d)                      # convert from a dictionary
    Point(x=11, y=22)
    >>> p._replace(x=100)               # _replace() is like str.replace() but targets named fields
    Point(x=100, y=22)



# Слайд 7. Список. Инициализация
Напоминание: синтаксис инициализации создаёт список
указанной длины и заполняет его начальным значением:



In [36]:
print([5] * 2)
print([''] * 3)

[5, 5]
['', '', '']


In [38]:
# Важно понимать, что копирование начального значения при этом не происходит:
chunks = [[0]] * 2 # матрица 2 x 1 из нулей
print(chunks)
chunks[0][0] = 42
print(chunks)

[[0], [0]]
[[42], [42]]



# Слайд 8. Cписки добавление элементов

Методы `append` и `extend` добавлют в конец списка один элемент или произвольную последовательность
соответственно:

In [40]:
xs = [1, 2, 3]
xs.append(42)        # ==> [1, 2, 3, 42]
xs.extend({-1, -2})  # ==> [1, 2, 3, 42, -1, -2]
print(xs)

[1, 2, 3, 42, -1, -2]


In [41]:
# Вставить элемент перед элементом с указанным индексом можно с помощью метода insert 
xs = [1, 2, 3]
xs.insert(0, 4) # ==> [4, 1, 2, 3]
print(xs)
xs.insert(-1, 42) # ==> [4, 1, 2, 42, 3]
print(xs)

[4, 1, 2, 3]
[4, 1, 2, 42, 3]


In [43]:
# Можно также заменить подпоследовательность на элементы другой последовательности:
xs = [1, 2, 3]
xs[:2] = [0] * 2
print(xs)

[0, 0, 3]


# Слайд 9. Cписки. Конкатенация
Конкатенация списков работает аналогично конкатенации кортежей: результатом всегда является новый список.

In [45]:
xs, ys = [1, 2], [3]
print( id(xs), id(ys))
print(id(xs + ys))
print((xs + ys))


83313800 89184136
89168328
[1, 2, 3]


В отличие от кортежей списки поддерживают inplace конкатенацию:

In [48]:
xs += ys # ≈ xs = xs.extend(ys)
print(id(xs))
print((xs))

83313800
[1, 2, 3, 3, 3]


In [54]:
xs = []
def f():
    global xs
    xs += [42]
f()
print(xs)

[42]


# Слайд 10. Списки. Удаление элементов
С помощью оператора **del** можно удалить не только один элемент по его индексу, но и целую
подпоследовательность:

In [4]:
xs = [1, 2, 3]
del xs[:2]
print(xs)

del xs[:]
print(xs)

[3]
[]


Иногда при удалении элемента по индексу может быть удобно также получить его значение функцией **pop**:

In [6]:
xs = [1, 2, 3]
print(xs.pop(1))
print(xs)

2
[1, 3]


In [7]:
# Удалить первое вхождение элемента в списке можно с помощью метода remove 
xs = [1, 1, 0]
xs.remove(1)
xs

[1, 0]

# Слайд 11. Списки. reversed

In [9]:
print(list(reversed([1, 2, 3])))
# Можно также перевернуть список inplace:
xs = [1, 2, 3]

# Обратите внимание, что в отличие от функции reversed inlpace операция возвращает None , подсказывая
# пользователю, что список был изменён.
xs.reverse()
print(xs)


[3, 2, 1]
[3, 2, 1]


# Слайд 12. Списки. sorted


In [11]:
xs = [3, 2, 1]
print(sorted(xs), xs)

xs.sort()
print(xs)


[1, 2, 3] [3, 2, 1]
[1, 2, 3]


Функции **sorted** и методу **sort** можно опционально указать `направление сортировки`, а также `функцию-ключ`:

In [13]:
xs = [3, 2, 1]
xs.sort(key=lambda x: x % 2, reverse=True)
print(xs)

[3, 1, 2]


# Слайд 13. Список - это стек. Список - это очередь!

In [16]:
stack = []
stack.append(1)
stack.append(2)
stack.append(3)
print(stack.pop())
print(stack)

3
[1, 2]


In [17]:
q = []
q.append(1)
q.append(2)
q.append(3)
print(q.pop(0))
print(q)

1
[2, 3]


# Слайд 14. deque - двусторонняя очередь

Добавление и удаление элемента с обеих сторон очереди работает за константное время, индексирование — за время, линейное от размера очереди.

Конструктор **deque** принимает опциональный аргумент `maxlen`, ограничивающий максимальную длину очереди.



In [23]:
from collections import deque
q = deque([1, 2, 3])
print(q)
q.appendleft(0)
print(q)
q.append(4)
print(q)
print(q.popleft())
print(q)

deque([1, 2, 3])
deque([0, 1, 2, 3])
deque([0, 1, 2, 3, 4])
0
deque([1, 2, 3, 4])


При добавлении элемента к ограниченной очереди лишние элементы “вываливаются” с противоположной
стороны:

In [26]:
q = deque([1, 2], maxlen=2)
print(q)
q.appendleft(0)
print(q)
q.append(2)
print(q)

deque([1, 2], maxlen=2)
deque([0, 1], maxlen=2)
deque([1, 2], maxlen=2)


# Слайд 16. Множество
Базовые операции при работе с множествами:

In [28]:
xs, ys, zs = {1, 2}, {2, 3}, {3, 4}
print(set.union(xs, ys, zs))        # xs | ys | zs
print(set.intersection(xs, ys, zs)) # xs & ys & zs
print(set.difference(xs, ys, zs))   # xs - ys - zs

{1, 2, 3, 4}
set()
{1}


Операции сравнения множеств:

In [29]:
print(xs.isdisjoint(ys))
print(xs <= ys)         # xs ⊆ ys
print(xs < xs)          # xs ⊂ xs
print(xs | ys >= xs)    # xs∪ys ⊇ x

False
False
False
True


# Слайд 17. Множества: добавление

Добавить один элемент в множестве можно с помощью метода **add**, добавить последовательность элементов — с помощью метода **update**.

Метод **update** принимает произвольное количество аргументов:

In [34]:
seen = set()
seen.add(42)
print(seen)
seen.update([1, 2])
print(seen)
seen.update([], [1], [2], [3])
print(seen)

{42}
{1, 42, 2}
{3, 1, 42, 2}


# Слайд 18.  Множества: удаление

Метод **remove** удаляет из множества существующий элемент или поднимает исключение, если элемент во
множестве не содержится:

Удалить все элементы из множества можно с помощью метода **clear** 

In [36]:
seen = {1, 2, 3}
seen.remove(3)
print(seen)
seen.remove(1050)

{1, 2}


KeyError: 1050

В отличие от метода `remove` метод **discard** удаляет элемент, только если он содержится во множестве:

In [37]:
seen.discard(100500)
print(seen)

{1, 2}


# Слайд 17. Форматирование строк: format
В Python есть два способа форматирования строк. Первый,
который мы рассмотрим, использует метод **format**:

In [27]:
print("{}, {}, how are you?".format("Hello", "Sally"))
print("Today is October, {}th.".format(8))


Hello, Sally, how are you?
Today is October, 8th.


В Python 3 есть три различных по смыслу способа
преобразовать объект в строку:
- `str` возвращает человекочитаемое представление объекта,
- `repr` возвращает представление объекта, по которому
можно однозначно восстановить его значение,
- `ascii` аналогичен repr по смыслу, но возвращаемая строка
состоит только из символов ASCII.

Примеры:

In [30]:
print(str("я строка"))
print(repr("я строка"))
print(ascii("я строка"))
print(ascii("I'm a string"))

я строка
'я строка'
'\u044f \u0441\u0442\u0440\u043e\u043a\u0430'
"I'm a string"


# Слайд 19. Форматирование строк: {}
- Напоминание: внутри {} можно опционально указать
способ преобразования объекта в строку и спецификацию
формата.
- Для преобразования объекта в строку используются
первые буквы соответствующих функций:

In [32]:
print("{!s}".format("я строка"))  # str
print("{!r}".format("я строка"))  # repr
print("{!a}".format("я строка"))  # ascii
print("{!a}".format("I'm a string"))  # ascii

я строка
'я строка'
'\u044f \u0441\u0442\u0440\u043e\u043a\u0430'
"I'm a string"


# Слайд 20. Спецификация формата
Спецификация формата позволяет:

In [41]:
# выровнять строку в “блоке” фиксированной длины,
print("{:~^16}".format("foo bar"))

# привести число к другой системе счисления,
print("int: {0:d} hex: {0:x}".format(42))
print("oct: {0:o} bin: {0:b}".format(42))

# потребовать наличие знака в строковом представлении числа и зафиксировать 
# количество знаков до или после запятой.
print("{:+07.2f}".format(-42.42))

# Комбинированный пример:
print("{!r:~^16}".format("foo bar"))

~~~~foo bar~~~~~
int: 42 hex: 2a
oct: 52 bin: 101010
-042.42
~~~'foo bar'~~~~


# Слайд 21. Форматирование: позиционные и ключ. арг.
Внутри {} можно также явно указывать номер
позиционного или имя ключевого аргумента:

In [42]:
print("{0}, {1}, {0}".format("hello", "kitty"))
print("{0}, {who}, {0}".format("hello", who="kitty"))

# Если один из аргументов — контейнер, то при форматировании можно 
# обращаться к его элементам по индексу или ключу:
point = 0, 10
print("x = {0[0]}, y = {0[1]}".format(point))
point = {"x": 0, "y": 10}
print("x = {0[x]}, y = {0[y]}".format(point))


hello, kitty, hello
hello, kitty, hello
x = 0, y = 10
x = 0, y = 10


# Слайд 22. Форматирование: олдскул
- пропустил. Даёшь молодежь!

# Слайд 23. Форматирование: резюме:
В Python есть два механизма форматирования строк:
- с использованием метода format и
- с помощью оператора %.
- Метод format объективно более лучше, поэтому
рекомендуется использовать его.

# Слайд 24. Модуль string

В модуле string можно найти полезные при работе со
строками константы:

In [55]:
import string 

print(string.ascii_letters)
print(string.digits)
print(string.punctuation)
print("{!r}".format(string.whitespace))
print(string.whitespace)

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
0123456789
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
' \t\n\r\x0b\x0c'
 	



# Слайд 25: Строки: резюме
- Строки в Python 3 — это последовательности символов
(правильнее codepoints) Юникод.
- В отличие от C/C++ или Java:
- нет разницы между одинарными и двойными кавычками,
- символ строки — это тоже строка,
- можно использовать тройные кавычки для многострочных
блоков текста.
- Обилие методов у класса `str` позволяет не изобретать
велосипед при работе с текстовыми данными.
- Для форматирования строк следует использовать метод
`format`, но полезно знать также про синтаксис с
использованием оператора `%` (врядли).

# Слайд 26. БАЙТЫ
Тип bytes — неизменяемая последовательность байтов.
- Аналогично строковым литералам в Python есть литералы
для байтов и “сырых” байтов:

In [56]:
print(b"\00\42\24\00")   # байты
print(rb"\00\42\24\00")  # "сырые" байты

# Байты и строки тесно связаны:
# - строку можно закодировать последовательностью байтов
chunk = "я строка".encode("utf-8")
print(chunk)
# - и из последовательности байтов можно раскодировать строку
print(chunk.decode("utf-8"))  #  utf-8 - одна из кодировок Юникода.


b'\x00"\x14\x00'
b'\\00\\42\\24\\00'
b'\xd1\x8f \xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0'
я строка


# Слайд 27. Байты, строки и кодировки
Кодировка специфицирует преобразование текстовой
строки в последовательность байтов. Стандартная
библиотека Python поддерживает более сотни кодировок.
- Любители Windows наверняка узнают магическое
сочетание букв в следующем примере:

In [58]:
chunk = "я строка".encode("cp1251")
print(chunk)

b'\xff \xf1\xf2\xf0\xee\xea\xe0'


In [59]:
# Что будет, если указать неверную кодировку? - ошибка!
chunk.decode("utf-8")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

# Слайд 28. Кодировки и ошибки
- Методы *encode* и __decode__ принимают опциональный
аргумент, контролирующий логику обработки ошибок:
> - "strict" — ошибочные символы поднимают исключение, 
> - "ignore" — ошибочные символы пропускаются,
> - "replace" — ошибочные символы заменяются на "\ufffd".

Пример:

In [62]:
chunk = "я строка".encode("cp1251")
print(chunk.decode("utf-8", "ignore"))
chunk.decode("utf-8", "replace")

 


'� ������'

Если не указывать кодировку, то Python будет
использовать системную кодировку по умолчанию:

In [64]:
import sys
sys.getdefaultencoding()

'utf-8'

# Слайд 30. Байты резюме
- Байты в Python 3 — это специальный тип для
последовательности байтов.
- Байты — это не строки, а строки — это не байты, но:
>- строку можно кодировать байтами,
>- а байты можно декодировать в строку.
- Большинство операций, поддерживаемых строками,
реализованы и для байтов:

In [65]:
b"foo bar".title().center(16, b"~")

b'~~~~Foo Bar~~~~~'

# Слайд 31. Файлы и ввод-вывод: open

Текстовые и бинарные файлы в Python — это две большие разницы.
Создать объект типа `файл` можно с помощью функции **open**, которая принимает один обязательный аргумент — путь к файлу:

In [68]:
open("./HBA1.txt")

<_io.TextIOWrapper name='./HBA1.txt' mode='r' encoding='cp1251'>

Аргументов у функции **open** довольно много, нас будут интересовать:
- mode — определяет, в каком режиме будет открыт файл,
возможные значения:
> "r", "w", "x", "a", "+",<br>
> "b", "t".
- для текстовых файлов можно также указать `encoding` и
`errors`.

In [75]:
# Открыть бинарный файл для чтения и записи:
print(open("./csc.db", "r+b"))

# Открыть текстовый в файл в кодировке "cp1251" для
# добавления, игнорируя ошибки кодирования:
print(open("./admin.log", "a", encoding="cp1251", errors="ignore"))

# Создать новый текстовый файл в системной кодировке и
# открыть его для записи:
print(open("./lecture4.tex", "x"))

<_io.BufferedRandom name='./csc.db'>
<_io.TextIOWrapper name='./admin.log' mode='a' encoding='cp1251'>
<_io.TextIOWrapper name='./lecture4.tex' mode='x' encoding='cp1251'>


# Слайд 33. Методы работы с файлами: чтение
Метод read читает не более, чем n символов из файла:

In [5]:
handle = open("./HBA1.txt")
handle.read(16)

'Some text in the'

Методы `readline` и `readline`s читают одну или все строчки
соотвественно. Можно указать максимальное количество
символов, которые надо прочитать:

In [24]:
handle = open("./HBA1.txt")
print(len(handle.readline()))
print(handle.readline() + handle.readline(13))
print(handle.readlines())

27

file type: 't
["xt'\n", '\n']


# Слайд 34. Запись
Метод write записывает строку в файл:

In [26]:
handle = open("./example.txt", "w")
handle.write("abracadabra")  # количество записанных байт

11

Неявного добавления символа окончания строки при этом
не происходит.
- Записать последовательность строк можно с помощью
метода writelines 

In [28]:
handle.writelines(["foo", "bar"])

# Слайд 35. Другие операции

In [51]:
handle = open("./example.txt", "r+")
print(handle.fileno())  # Returns underlying file descriptor if one exists
print(handle.tell())  # Return current stream position
print(handle.seek(8))  # Change the stream position to the given byte offset
                       # Return the new absolute position
print(handle.tell())

# Write string to stream
print("bytes wrote " +  str(handle.write("something unimportant")))  
handle.flush()  # Flush write buffers, if applicable
handle.close()  # Flush and close the IO object

4
0
8
8
bytes wrote 21


# Слайд 36. Cтандартные потоки

Интерпретатор Python предоставляет три **текстовых**
файла, называемых стандартными потоками
ввода/вывода: ``sys.stdin , sys.stdout и sys.stderr ``

Для чтения `sys.stdin` используют функцию <font color=green>**input**</font> 

In [53]:
input("Name: ")

Name: sdfa


'sdfa'

Для записи в sys.stdout или sys.stderr — функцию <font color=green>**print**</font>

In [64]:
import sys
print("Hello, `sys.stdout`!", file=sys.stdout)
print("Hello, `sys.stderr`!", file=sys.stderr)

Hello, `sys.stdout`!


Hello, `sys.stderr`!


# Cлайд 37. print

In [60]:
# Функция print позволяет изменять разделитель между
# аругументами
print(range(4))
print(*range(4))
print(*range(4), sep="_")

range(0, 4)
0 1 2 3
0_1_2_3


In [62]:
# указывать последовательность, которой заканчивается вывод:
print(*range(4), end="\n--\n")

0 1 2 3
--


In [63]:
# и форсировать вызов flush у файла, в который осуществляется вывод:
handle = open("./example.txt", "w")
print(*range(4), file=handle, flush=True)

# Слайд 38. Модуль io
В модуле io реализованы базовые классы для работы с
текстовыми и бинарными данными.

Класс `io.StringIO` позволяет получить файловый объект
из строки, а `io.BytesIO` из байтов:

In [78]:
import io
handle = io.StringIO("foo\n\bar")
print(handle.readline())
print(handle.write("boo"))

# Retrieve the entire contents of the object.
print("content: \n'''\n" + handle.getvalue() + "\n'''")  

foo

3
content: 
'''
foo
boo
'''


In [68]:
help(handle.getvalue)

Help on built-in function getvalue:

getvalue() method of _io.StringIO instance
    Retrieve the entire contents of the object.



# Слайд 39. Резюме
Файлы бывают текстовые и бинарные, их можно читать и в
них можно писать.

- Методы работы с файлами глобально не отличаются от
других языков:
```
handle = open("./example.txt", "w")
handle.write("foobar")
handle.close()
```
- Стандартные потоки ввода/вывода в Python тоже
представляются в виде текстовых файлов. Для работы с
ними удобно использовать функции input и print .
- В модуле io реализована иерархия низкоуровневых
классов для работы с вводом/выводом. Полезные для
обычных людей классы: io.StringIO и io.BytesIO 