## Лекция 2 - Типы данных Python
В лекции будут рассмотрены самые распространенные и полезные встроенные типы-коллекции:
- изменяемые (mutable)
    * списки (list)
    * словари (dict)
    * множества (set)
- неизменяемые (immutable):
    * строки (str)
    * кортежи (tuple)
    * фиксированные множества (frozenset)

### Списки

In [1]:
# примеры списков:
letters = ['H', 'e', 'l', 'l', 'o']
stats = [2, 36, 154, 18, 24, 56]
params = [1, 'Normal', [30, 2, 6], 9.82]

print(type(params))
print(params)
print('Третий элемент списка:', params[2])

<class 'list'>
[1, 'Normal', [30, 2, 6], 9.82]
Третий элемент списка: [30, 2, 6]


In [2]:
# списки являются изменяемыеми,
# т.е. можно написать так:
params[1] = 'High'
print(params)

[1, 'High', [30, 2, 6], 9.82]


In [3]:
# список чисел от 1 до 10
l = list(range(1, 11))
print(l)

# список чисел от 10 до 100 с шагом 10
t = list(range(10, 101, 10))
print(t)

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
[10, 20, 30, 40, 50, 60, 70, 80, 90, 100]


NB. В Python 3 нужно результат функции range() явно преобразовать к списку (к этому важному моменту еще вернемся). В Python 2 функция range() сразу возвращает готовый список, а эквивалент третьепитоновской range() в Python 2 - функция xrange()

In [4]:
# узнать размер списка:
print(len(l))

# эквивалентно magic-методу __len__
print(l.__len__())

10
10


In [5]:
# проверить, входит ли элемент в список:
x = 9
if x in l:
    print('Список содержит число х=9')

# эквивалентно magic-методу __contains__
print(l.__contains__(x))

Список содержит число х=9
True


In [6]:
# примеры слайсов (срезов)
print(l[2:])
print(l[:-2])
print(l[1:6:2])
print(l[::-1])

[3, 4, 5, 6, 7, 8, 9, 10]
[1, 2, 3, 4, 5, 6, 7, 8]
[2, 4, 6]
[10, 9, 8, 7, 6, 5, 4, 3, 2, 1]


In [7]:
# копирование списка
lcopy = l[:]
lcopy[1] = 'Something new'

print('New list:', lcopy)
print('Old list:', l)

New list: [1, 'Something new', 3, 4, 5, 6, 7, 8, 9, 10]
Old list: [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


In [8]:
# слайсы + изменяемость списков = ♥
l[3:7] = ['wow', 'what', 'a', 'feature']
print(l)

l[7:7] = ['values', 'were', 'inserted!']
print(l)

[1, 2, 3, 'wow', 'what', 'a', 'feature', 8, 9, 10]
[1, 2, 3, 'wow', 'what', 'a', 'feature', 'values', 'were', 'inserted!', 8, 9, 10]


In [9]:
# пример удаления
del l[3]
print(l)

del l[3:5]
print(l)

[1, 2, 3, 'what', 'a', 'feature', 'values', 'were', 'inserted!', 8, 9, 10]
[1, 2, 3, 'feature', 'values', 'were', 'inserted!', 8, 9, 10]


In [10]:
# склеивание списков
spring = ['march', 'april', 'may']
summer = ['june', 'july', 'august']

# (при этом вызывается magic-метод: __add__)
seasons = spring + summer    
print(seasons)

# эквивалентно:
seasons = spring.__add__(summer)
print(seasons)

['march', 'april', 'may', 'june', 'july', 'august']
['march', 'april', 'may', 'june', 'july', 'august']


In [11]:
# операция * (размножение списка)
months = spring * 3
print(months)

years = [2014] * 3 + [2015] * 3 + [2016] * 3
print(years)

['march', 'april', 'may', 'march', 'april', 'may', 'march', 'april', 'may']
[2014, 2014, 2014, 2015, 2015, 2015, 2016, 2016, 2016]


In [12]:
# Получим список пар вида "месяц_год" за период 2014-2016 гг.

# Данный код приводит к нужному результату, но питонисты так не пишут:
spring_2014_16 = []
for i in range(len(years)):
    spring_2014_16.append('{}_{}'.format(months[i], years[i]))
print(spring_2014_16)

['march_2014', 'april_2014', 'may_2014', 'march_2015', 'april_2015', 'may_2015', 'march_2016', 'april_2016', 'may_2016']


In [13]:
# А вот это по-питоньячему:
# применяем list comprehension (генератор списка)
# о функции zip позже - в лекции №4
spring_2014_16 = ['{}_{}'.format(month, year) for month, year in zip(months, years)]
print(spring_2014_16)

['march_2014', 'april_2014', 'may_2014', 'march_2015', 'april_2015', 'may_2015', 'march_2016', 'april_2016', 'may_2016']


In [14]:
# еще примеры лист компрехеншнов:
cubes = [x**3 for x in range(1, 6)]
print(cubes)

first_ones = [x*10 if x % 2 == 1 else x for x in range(1, 11)]
print(first_ones)

ascii_codes = [(code, chr(code)) for code in range(58, 68)]
print(ascii_codes)

[1, 8, 27, 64, 125]
[10, 2, 30, 4, 50, 6, 70, 8, 90, 10]
[(58, ':'), (59, ';'), (60, '<'), (61, '='), (62, '>'), (63, '?'), (64, '@'), (65, 'A'), (66, 'B'), (67, 'C')]


In [15]:
row = [[1, 2, 3]]
matrix = row * 3
print(matrix)

[[1, 2, 3], [1, 2, 3], [1, 2, 3]]


In [16]:
# но есть нюанс:
matrix[0][1] = 100
print(matrix)

# как правило, матрицы нужны в математике,
# а там стандартно используется numPy

[[1, 100, 3], [1, 100, 3], [1, 100, 3]]


In [17]:
# можно и стандартными средствами достичь ожидаемого результата
# (опять с помощью генератора списка)
matrix = [[1,2,3] for _ in range(3)]
print(matrix)
print()

matrix[0][1] = 100
print(matrix)

[[1, 2, 3], [1, 2, 3], [1, 2, 3]]

[[1, 100, 3], [1, 2, 3], [1, 2, 3]]


In [18]:
# демонстрация некоторых функций списков:

l = list(range(10, 16))
print(l)

l.append(7)
print('Добавили 7: ', l)

l.extend([8, 9, 10])
print('Расширили на 8,9,10: ', l)

l.sort()
print('Отсортировали: ', l)
# функция sorted предпочтительнее
print('Отсортировали: ', sorted(l))

tens = l.count(10)
print('Количество десяток: ', tens)

l.clear()
print('Очистили: ', l)

[10, 11, 12, 13, 14, 15]
Добавили 7:  [10, 11, 12, 13, 14, 15, 7]
Расширили на 8,9,10:  [10, 11, 12, 13, 14, 15, 7, 8, 9, 10]
Отсортировали:  [7, 8, 9, 10, 10, 11, 12, 13, 14, 15]
Отсортировали:  [7, 8, 9, 10, 10, 11, 12, 13, 14, 15]
Количество десяток:  2
Очистили:  []


In [19]:
# сравнение списков через == является глубоким, поэлементным
l1 = [1, 3, [5, 7]]
l2 = [1, 3, [5, 7]] 

if l1 == l2:
    print('Списки эквивалентны')

Списки эквивалентны


In [20]:
# всегда можно обратиться к хелпу:
help(list)

Help on class list in module builtins:

class list(object)
 |  list() -> new empty list
 |  list(iterable) -> new list initialized from iterable's items
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iadd__(self, value, /)
 |      Implement self+=value.
 |  
 |  __imul__(self, value, /)
 |      Implement self*=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __l

### Кортежи

In [21]:
# пример кортежа (tuple)
player1 = (1, "Ivanov", 1986)
player2 = 2, "Petrov", 1987     # можно без скобок

print(type(player1))

team = [player1, player2]     # список из кортежей
for player in team:
    print(player)
    
# Индексация и срезы - как и в списках
print(player1[1])
print(player1[2])

<class 'tuple'>
(1, 'Ivanov', 1986)
(2, 'Petrov', 1987)
Ivanov
1986


Технически отличие кортежей от списков заключается в их неизменяемости, т.е. так написать нельзя:
```
player1[2] = 1990
```
Слайсы есть, но по вышеприведенной причине только на чтение

In [22]:
# Благодаря кортежам, можно компактно записывать:

# множественное присваивание
x, y = (12, 35)
x, y = 12, 35

# обмен значениями переменных (python-стайл)
x, y = y, x

In [23]:
# В Python 3 есть удобный синтаксис распаковки:

x, *y = range(5)
print(x)
print(y)

0
[1, 2, 3, 4]


In [24]:
first, *middle, last = ['A', 'O', 'E', 'I', 'U']
print(first)
print(middle)
print(last)

A
['O', 'E', 'I']
U


In [25]:
# кейс-стади со списком и кортежами:
# отсортировать список игроков по году рождения
# в порядке убывания
team.sort(key=lambda x: x[2], reverse=True)
print(team)

# второй вариант (более предпочтительный)
from operator import itemgetter
print(sorted(team, key=itemgetter(2), reverse=True))

# в обоих случаях использованы пока незнакомые lambda и import
# в следующих лекциях они станут знакомы ))

[(2, 'Petrov', 1987), (1, 'Ivanov', 1986)]
[(2, 'Petrov', 1987), (1, 'Ivanov', 1986)]


In [26]:
# выше мы рассматривали пример со списком ascii-кодов.
# Напишем то же самое, но в круглых скобках:
ascii_codes = ((code, chr(code)) for code in range(58, 68))

# при выводе не отобразится содержимое,
# т.к. в даном случае создается не список и даже не кортеж,
# а "генератор", о котором речь пойдет в лекции №4
print(ascii_codes)

# генератор "поставляет" данные по мере итерации по нему
# (что весьма эффективно)
for code in ascii_codes:
    print(code)

<generator object <genexpr> at 0x02D64330>
(58, ':')
(59, ';')
(60, '<')
(61, '=')
(62, '>')
(63, '?')
(64, '@')
(65, 'A')
(66, 'B')
(67, 'C')


In [27]:
help(tuple)

Help on class tuple in module builtins:

class tuple(object)
 |  tuple() -> empty tuple
 |  tuple(iterable) -> tuple initialized from iterable's items
 |  
 |  If the argument is a tuple, the return value is the same object.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(self, key, /)
 |      Return self[key].
 |  
 |  __getnewargs__(...)
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __hash__(self, /)
 |      Return hash(self).
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __le__(self, value, /)
 |      Return self<=value.
 |  
 |  __len__(self, /)
 |      Return len(self).
 |  
 |  __lt__(self, value, /)
 |      Return self

### Строки
По поводу строк поговорим еще в лекции №8, а пока рассмотрим базовый функционал. Строки, как и кортежи, являются immutable.

In [28]:
# однострочные и многострочные литералы
message = 'Hello world'
print(type(message))
print(message)

text = '''He deals the cards as a meditation
And those he plays never suspect
He doesn't play for the money he wins
He don't play for respect'''
print(text)

<class 'str'>
Hello world
He deals the cards as a meditation
And those he plays never suspect
He doesn't play for the money he wins
He don't play for respect


In [29]:
# еще такой вариант разбивки строк
text = ('He deals the cards as a meditation\n'  # каждую строку можно комментить
        'And those he plays never suspect\n'    # автор - М.Г.Саммнер
        'He doesn\'t play for the money he wins\n'
        'He don\'t play for respect\n')
print(type(text))
print(text)

<class 'str'>
He deals the cards as a meditation
And those he plays never suspect
He doesn't play for the money he wins
He don't play for respect



In [30]:
# следует аккуратно экранировать символы
path = 'D:\Folder\file.txt'
print(path)
path = 'D:\\Folder\\file.txt'
print(path)

D:\Folderile.txt
D:\Folder\file.txt


In [31]:
# или использовать raw-строки (r)
path = r'D:\Folder\file.txt'
print(path)

D:\Folder\file.txt


Как уже отмечалось в лекции №1, есть два способа форматирования строк.
В наших лекциях постоянно присутствует то или иное форматирование.

Ну а подробно - см. здесь:
https://docs.python.org/3.5/library/stdtypes.html#printf-style-string-formatting
https://docs.python.org/3.5/library/string.html#formatstrings

In [32]:
# как и со списками - размножение и конкатенация
hidden = '?' * 16
print(hidden)

hidden += ' (unknown)'
print(hidden)

????????????????
???????????????? (unknown)


In [33]:
# привычный сплит
s = 'one two three four five'
numbers = s.split()
print(numbers)

['one', 'two', 'three', 'four', 'five']


In [34]:
# удобный джойн
sentence = ' and '.join(numbers)
print(sentence)

one and two and three and four and five


In [35]:
# пример - заменить все цифры на символ "*" (без использования регулярок)
info = 'my phone no.: 050-888-77-65'

# 1 вариант
secret = ''.join(['*' if c.isdigit() else c for c in info])
print(secret)

# 2 вариант
secret = info.translate(str.maketrans('0123456789', '**********'))
print(secret)

my phone no.: ***-***-**-**
my phone no.: ***-***-**-**


In [36]:
# пример: в строках С++ кода вычленить только списки параметров функций 
# (опять без регулярок)
cpp_code = ('void foo(int* array, size_t N);'
            'int bar(std::string s);'
            'bool compare(double x, double y);')

code_lines = cpp_code.rstrip(';').split(';')

parameter_lists = [line[line.index('(')+1:line.index(')')] 
                   for line in code_lines]

for parameter_list in parameter_lists:
    print('Function parameters:', parameter_list)

Function parameters: int* array, size_t N
Function parameters: std::string s
Function parameters: double x, double y


In [37]:
# возможностей типа str немало, так что
# читаем мануал и пробуем сами
help(str)

Help on class str in module builtins:

class str(object)
 |  str(object='') -> str
 |  str(bytes_or_buffer[, encoding[, errors]]) -> str
 |  
 |  Create a new string object from the given object. If encoding or
 |  errors is specified, then the object must expose a data buffer
 |  that will be decoded using the given encoding and error handler.
 |  Otherwise, returns the result of object.__str__() (if defined)
 |  or repr(object).
 |  encoding defaults to sys.getdefaultencoding().
 |  errors defaults to 'strict'.
 |  
 |  Methods defined here:
 |  
 |  __add__(self, value, /)
 |      Return self+value.
 |  
 |  __contains__(self, key, /)
 |      Return key in self.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __format__(...)
 |      S.__format__(format_spec) -> str
 |      
 |      Return a formatted version of S as described by format_spec.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getatt

### Словари

In [38]:
# пример словаря
cities = {'Donetsk': 1869, 'Moscow': 1147}

print(type(cities))
print(cities)
print(cities['Donetsk'])

<class 'dict'>
{'Moscow': 1147, 'Donetsk': 1869}
1869


In [39]:
# Добавим элемент в список
cities['Lugansk'] = 1795

print(cities)

{'Moscow': 1147, 'Lugansk': 1795, 'Donetsk': 1869}


In [40]:
# Отдельно отобразим ключи и значения словаря
for city in cities.keys():
    print(city)
    
for fdate in cities.values():
    print(fdate)

Moscow
Lugansk
Donetsk
1147
1795
1869


In [41]:
# пример работы со строкой и словарем:
# разобьем строку на слова
# и посчитаем число вхождений каждого в строку
text = "skating away on the thin ice of a new day away"

words = text.split(' ')
print(words)

# следующий код работает, но он не идиоматичен:
hist = {}
for word in words:
    if word in hist:     # из-за проверки на вхождение в словарь
        hist[word] += 1
    else:
        hist[word] = 1

print(hist)

['skating', 'away', 'on', 'the', 'thin', 'ice', 'of', 'a', 'new', 'day', 'away']
{'new': 1, 'skating': 1, 'a': 1, 'thin': 1, 'on': 1, 'day': 1, 'away': 2, 'the': 1, 'of': 1, 'ice': 1}


In [42]:
# ниже то же самое, но по-питоновски
# проверки нет, есть метод get(key, default)
hist = {}
for word in words:
    hist[word] = hist.get(word, 0) + 1

print(hist)

# также можно использовать Counter из модуля collections

{'new': 1, 'skating': 1, 'a': 1, 'thin': 1, 'on': 1, 'day': 1, 'away': 2, 'the': 1, 'of': 1, 'ice': 1}


In [43]:
# и опять же есть аналог лист компрехеншна:
ascii_codes = { code: chr(code) for code in range(58, 68) }
print(ascii_codes)

{64: '@', 65: 'A', 66: 'B', 67: 'C', 58: ':', 59: ';', 60: '<', 61: '=', 62: '>', 63: '?'}


In [44]:
help(dict)

Help on class dict in module builtins:

class dict(object)
 |  dict() -> new empty dictionary
 |  dict(mapping) -> new dictionary initialized from a mapping object's
 |      (key, value) pairs
 |  dict(iterable) -> new dictionary initialized as if via:
 |      d = {}
 |      for k, v in iterable:
 |          d[k] = v
 |  dict(**kwargs) -> new dictionary initialized with the name=value pairs
 |      in the keyword argument list.  For example:  dict(one=1, two=2)
 |  
 |  Methods defined here:
 |  
 |  __contains__(self, key, /)
 |      True if D has a key k, else False.
 |  
 |  __delitem__(self, key, /)
 |      Delete self[key].
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __getitem__(...)
 |      x.__getitem__(y) <==> x[y]
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |

### Множества

In [45]:
# пример множеств
s1 = {1, 4, 5, 6, 7, 8, 2, 4}
s2 = set([12, 4, 7, 8, 23])
s3 = set(range(90, 100))

print(type(s1))
print(s1)
print(s2)
print(s3)

<class 'set'>
{1, 2, 4, 5, 6, 7, 8}
{8, 23, 12, 4, 7}
{96, 97, 98, 99, 90, 91, 92, 93, 94, 95}


In [46]:
# объединение множеств
print(s1 | s2)

# пересечение множеств
print(s1 & s2)

# разность множеств
print(s1 - s2)

# симметрическая разность множеств
print(s1 ^ s2)

{1, 2, 4, 5, 6, 7, 8, 12, 23}
{8, 4, 7}
{1, 2, 5, 6}
{1, 2, 5, 6, 12, 23}


In [47]:
# Пример: удаление повторяющихся элементов из списка
some_list = [5, 1, 3, 1, 7, 8, 5]
uniques = list(set(some_list))
print(uniques)

[8, 1, 3, 5, 7]


In [48]:
help(set)

Help on class set in module builtins:

class set(object)
 |  set() -> new empty set object
 |  set(iterable) -> new set object
 |  
 |  Build an unordered collection of unique elements.
 |  
 |  Methods defined here:
 |  
 |  __and__(self, value, /)
 |      Return self&value.
 |  
 |  __contains__(...)
 |      x.__contains__(y) <==> y in x.
 |  
 |  __eq__(self, value, /)
 |      Return self==value.
 |  
 |  __ge__(self, value, /)
 |      Return self>=value.
 |  
 |  __getattribute__(self, name, /)
 |      Return getattr(self, name).
 |  
 |  __gt__(self, value, /)
 |      Return self>value.
 |  
 |  __iand__(self, value, /)
 |      Return self&=value.
 |  
 |  __init__(self, /, *args, **kwargs)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __ior__(self, value, /)
 |      Return self|=value.
 |  
 |  __isub__(self, value, /)
 |      Return self-=value.
 |  
 |  __iter__(self, /)
 |      Implement iter(self).
 |  
 |  __ixor__(self, value, /)
 |      Re