Коллекция (collection) — структура данных в Python, набор элементов.

Последовательность (sequence) — коллекция, элементы которой упорядочены.
К элементам последовательности можно обращаться по целочисленным индексам.

К последовательностям относят списки, строки и кортежи.

Словари и множества — неупорядоченные коллекции.

# Кортежи

В этом уроке:
- разберем новую структуру данных – кортежи
- узнаем, в чём их отличительные особенности
- научимся работать с ними в Python
- разберём примеры задач, в которых удобно использовать кортежи.
- узнаем, как замерить время выполнения кода и посчитать, сколько памяти занимают ваши данные
- узнаем, как в Python сравниваются строки.


Представьте, что вы работаете в сервисе онлайн-доставки. У вас есть список адресов ваших пользователей, и вам нужно понять, в каких регионах/районах чаще всего заказывают доставку.

Чтобы посчитать такую аналитику, вам сначала нужно преобразовать адреса в численные значения. А сделать это можно с помощью какого-нибудь сервиса с геоданными, который преобразует адрес в широту и долготу: два числа. Они неизменны: кто то придумал характеризовать так все точки на земном шаре с помощью двух чисел, и этот метод сейчас чаще всего используются разработчиками для описания адресов.  

Значит, нам нужно хранить каждый адрес в виде двух и только чисел и не иметь никакой возможности добавить туда ещё элементов. И тем более, как-то их менять. Потому что если мы изменим значение хоть на одну тысячную, точка на карте сильно изменится и вся аналитика будет неверной.

При этом списки и обычные переменные не подойдут, потому что значения в них можно с легкостью поменять, а в список случайно можно добавить лишнего. Значит,нам нужна неизменяемая структура данных.

Такая структура данных есть — кортеж (в Python этот тип называется tuple). Это коллекция типа Sequence, то есть упорядоченный набор элементов. Основное отличие от списков заключается в том, что tuple – неизменяемая последовательность. То есть, однажды объявив значения внутри tuple, вы не сможете их ни поменять, ни удалить. Как раз то, что нужно — максимально ограничить доступ к элементам внутри объекта.

Попробуем создать пустой кортеж. Это можно сделать двумя способами.

Первый способ — положить в переменную пустой кортеж, поставив пустые круглые скобки.

Второй способ –  указать в инициализации тип нужной нам переменной – tuple – и рядом поставить пустые круглые скобки.

In [None]:
test_tuple1 = ()
test_tuple2 = tuple()

Выведем содержимое этих переменных на экран и убедимся, что они действительно пустые.




In [None]:
print(test_tuple1)
print(test_tuple2)

()
()


Проверим их типы:

In [None]:
print(type(test_tuple1))
print(type(test_tuple2))

<class 'tuple'>
<class 'tuple'>


А теперь попробуем заполнить эти tuple какими-то значениями. В первом случае просто укажем целые значения через запятую внутри скобок. Вообще в tuple можно положить всё, что угодно: и числа, и строки, и списки.

Выведем на экран, всё получилось.

In [None]:
test_tuple1 = (1, 3, 5)
print(test_tuple1)

(1, 3, 5)


Если вы захотите положить в tuple один элемент, то после него нужно будет поставить запятую. Так Python поймет, что вы хотите создать tuple.



In [None]:
test_tuple1 = (1,)
print(test_tuple1)

(1,)


Tuple можно также создать из любого итерируемого объекта: например, из списка или из строки. Давайте в конструкцию tuple внутрь круглых скобок добавим список. И выведем результат на экран.


In [None]:
test_tuple2 = tuple([1, 10, 0, 0])
print(test_tuple2)

(1, 10, 0, 0)


Проделаем такую же операцию, но только вместо списка положим строку. Строка – это тоже итерируемый объект, по факту – список из символов.




In [None]:
test_tuple2 = tuple('tururum')
print(test_tuple2)

('t', 'u', 'r', 'u', 'r', 'u', 'm')


Поскольку tuple – это упорядоченная последовательность, то к каждому элементу можно обращаться по индексу, как и в списках. Нумерация индексов также начинается с 0, попробуем обратиться к нулевому и последнему элементу в кортеже:


In [None]:
test_tuple2[0]

't'

In [None]:
test_tuple2[-1]

'm'

Списки и tuple относятся к одному и тому же классу Sequences, ключевая характеристика которого – упорядоченность элементов. Значит, все действия с индексами, которые мы совершали на списках, также можно сделать и на кортежах.
Например, слайсинг:



In [None]:
test_tuple2[1:5]

('u', 'r', 'u', 'r')

Единственное отличие в операциях кортежа и списка – это то, что списки изменяемы, а кортежи – нет. Это значит, что в tuple нельзя совершать операции, связанные с изменением элементов по индексу. Попробуем удалить или переопределить элемент в tuple. Получим ошибку, что этот тип данных не поддерживает удаление и переопределение элементов.

'tuple' object does not support item assignment

'tuple' object doesn't support item deletion

'tuple' object has no attribute 'append'


In [None]:
test_tuple2[1] = 100

TypeError: 'tuple' object does not support item assignment

In [None]:
del test_tuple2[-1]

TypeError: 'tuple' object doesn't support item deletion

Раз кортежи неизменяемы, значит в них нельзя добавлять значения по ходу программы, метод `append()` тут не сработает.

In [None]:
test_tuple2.append(1)

AttributeError: 'tuple' object has no attribute 'append'

Зато можно сконкатенировать два объекта типа tuple и, если нужно, записать результат в третью переменную.



In [None]:
test_tuple2 + test_tuple1

('t', 'u', 'r', 'u', 'r', 'u', 'm', 1)

Все встроенные функции, которые мы использовали на списках, также работают и на кортежах. Например, можно вывести длину, максимум, минимум. Давайте попробуем посмотреть максимальный и минимальный элемент на `test_tuple2`.



In [None]:
max(test_tuple2)

'u'

In [None]:
min(test_tuple2)

'm'

Они отсортировались по алфавиту! Минимальное значение – это буква m, максимальное – u. Что же происходит на самом деле?

В Python строки сравниваются по лексикографическому порядку. Метод заключается в следующем: берутся две строки, и их символы сравниваются поэлементно.

Как только встречаются различные символы, берется их Unicode-значение. Строка, у которой символ с большим Unicode значением, считается большей, чем другая строка.

![unicode](https://drive.google.com/uc?id=10dtB9WTTQ6C74WKDcWn2VS0qXTb2v_6E)

Unicode – это стандарт кодирования символов, включающий в себя знаки почти всех письменных языков мира.

Таблицы с кодами символов для каждого языка доступны в интернете, а еще код можно проверить вызвав функцию `ord()` на символе. Давайте попробуем вызвать `ord()`() на символе U:



In [None]:
ord('u')

117

В чем же преимущество кортежа по сравнению со списком? Почему нельзя использовать список для хранения значений? На это есть обоснованные причины.

1. C точки зрения ресурсов, tuple занимает меньше места, чем список.

Давайте создадим список с такими же значениями, что и в `test_tuple2`. Назовем его test_list2.  У каждого объекта в Python есть специальный метод `.__sizeof__()` который позволяет посмотреть, сколько данный объект занимает места в памяти в байтах.

Сравним значения по памяти для `test_tuple2` и `test_list2`.

In [None]:
test_tuple2 = ('t', 'u', 'r', 'u', 'r', 'u', 'm')

In [None]:
test_list2 = ['t', 'u', 'r', 'u', 'r', 'u', 'm']

In [None]:
test_tuple2.__sizeof__()

80

In [None]:
test_list2.__sizeof__()

104

Как видите, tuple занимает на 24 байта меньше. Может быть, вам сейчас это кажется мелочью, но что если элементов будет значительно больше?  А нам, как дата-сайентистам, приходится работать с большими объемами данных. Тогда это уже будут достаточно серьёзные затраты по памяти.

Если вам понадобится сделать из кортежа список, можно сделать это с помощью явного преобразования:





In [None]:
converted_list = list(test_tuple2)
print(type(converted_list))
print(converted_list)

<class 'list'>
['t', 'u', 'r', 'u', 'r', 'u', 'm']


2. Для кортежей создание и доступ к элементу происходит быстрее, чем в списках. Давайте проведём ещё один эксперимент. Замерим время, за которое можно создать список и tuple с одинаковыми значениями. Напишем две ячейки кода, в первой из которых инициализируем список, а во второй – инициализируем tuple с такими же значениями.

Замерить время выполнения внутри ячейки можно с помощью команды `%%timeit`. Она запускает код несколько раз, и рассчитывает среднее время выполнения.

Добавим `%%timeit` в каждую ячейку и запустим их:




In [None]:
%%timeit
test_list3 = ['t', 'u', 'r', 'u', 'r', 'u', 'm']

62.2 ns ± 1.33 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [None]:
%%timeit
test_tuple3 = ('t', 'u', 'r', 'u', 'r', 'u', 'm')

25.6 ns ± 4.96 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


Видно, что разрыв в скорости есть и достаточно весомый. Измерение в данном случае идет в ns (наносекундах).

Протестируем на большем количестве данных. Чтобы “размножить” список или кортеж достаточно умножить его на число. Это число будет представлять сколько раз нужно повторить эти элементы в цикле. Если умножим список на 2, получим tururum два раза подряд.

In [None]:
['t', 'u', 'r', 'u', 'r', 'u', 'm']*2

['t', 'u', 'r', 'u', 'r', 'u', 'm', 't', 'u', 'r', 'u', 'r', 'u', 'm']

Давайте размножим список и кортеж в 500 тысяч раз. И сравним время.



In [None]:
%%timeit
test_list3 = ['t', 'u', 'r', 'u', 'r', 'u', 'm'] * 500

7.85 µs ± 77.4 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [None]:
%%timeit
test_tuple3 = ('t', 'u', 'r', 'u', 'r', 'u', 'm') * 500

7.55 µs ± 1.95 µs per loop (mean ± std. dev. of 7 runs, 100000 loops each)


3. Кортежи нужно использовать тогда, когда нужно защитить данные от изменения.

В случае с геоокоординатами, которые состоят из двух параметров, отличным решением будет хранить их в кортеже.

In [None]:
geo_coord = (56.78767, 52.6786384)

  

Во-первых, вы, разрабатывая код, не сможете случайно переписать значения или добавить новые. И вдруг, если в проект придёт другой коллега, он также не сможет изменить или удалить исходные значения широты/долготы, потому что они лежат в кортеже.

Резюмируем, в чем отличие кортежа и списка:
- Списки – изменяемы, они позволяют производить операции добавления, удаления или переопределения элемента. Списки можно заполнять динамически, то есть по ходу программы. В то время как кортежи – неизменяемы. Один раз создав объект такого типа, вы не сможете ни добавить, ни изменить элементы внутри него. Это удобно, когда значения постоянны и вам нужно оградить себя и других разработчиков от непреднамеренного изменения данных.
- Кортежи занимают меньше места
- Большинство операций над кортежами быстрее, чем на списках.

И кортежи, и списки относятся к коллекциям типа Sequences, они позволяют итерироваться и обращаться к элементам по индексу, а также производить на них слайсинг.

Рассмотрим ещё один пример. Вам выгрузили список дней рождений пользователей, которые зарегистрировались в приложении за прошлый год. Ваш тимлид дал вам первое задание: найти возрастной диапазон пользователей, то есть минимальные и максимальные года дней рождений. Также он предупредил, что дальше нужно будет сделать ещё пару задачек на этих данных.

Дни рождения выгрузили в виде списка строк, где каждая строка – это дата в формате год-месяц-день.

In [None]:
dates = ['1999-10-01', '2001-12-17', '1991-12-01', '2001-01-01', '2001-06-22', '2001-09-05', '2001-01-13']

Давайте сразу преобразуем их в удобный вид, чтобы в дальнейшем работать сразу с числовыми значениями, а не со строками. Объявим новый список `converted_dates`, где каждая дата будет кортежем из трёх целочисленных значений: год, месяц, день.  Поскольку даты рождения уже не поменяются и в дате всегда три компонента, tuple – оптимальная структура данных.

Заведём отдельную функцию, назовем её `dates_to_tuples` c входным аргументом `dates` – это список строк. Внутри тела функции инициализируем переменную `converted_dates`, в который положим результирующий список из кортежей.

Далее будем итерироваться по списку `dates`, брать каждую строку и разбивать её на три части: год, месяц, день с помощью метода `.split()`. На выходе из метода `.split()` мы получаем список из трёх значений. Как же из него сделать tuple?
Можно обернуть список в выражение `tuple()`. Добавим это значений в результирующий список. Вернём результирующий список на выход из функции.

Мы забыли сделать преобразование строки к целочисленному значению. К счастью, мы уже знаем, как это делается. Добавим строку, где каждый из трёх элементов в `tuple_date` будет явно приводиться к числовому значению.


In [None]:
def dates_to_tuples(dates):
    converted_dates = []
    for date in dates:
        tuple_date = date.split('-')
        tuple_date = (int(tuple_date[0]), int(tuple_date[1]), int(tuple_date[2]))
        converted_dates.append(tuple_date)
    converted_dates.sort()    # сортировка по возрастанию
    return converted_dates

Проверим её на `dates`.



In [None]:
dates_to_tuples(dates)

[(1991, 12, 1),
 (1999, 10, 1),
 (2001, 1, 1),
 (2001, 1, 13),
 (2001, 6, 22),
 (2001, 9, 5),
 (2001, 12, 17)]

Сохраним результат работы функции в новую переменную. Всё, что нам осталось – это найти максимум и минимум по годам.


In [None]:
tuple_dates = sorted(dates_to_tuples(dates))
tuple_dates

[(1991, 12, 1),
 (1999, 10, 1),
 (2001, 1, 1),
 (2001, 1, 13),
 (2001, 6, 22),
 (2001, 9, 5),
 (2001, 12, 17)]


В результате задачи на данном примере вы должны получить минимальное значение 1991 и максимальное 2001.

Далее к вам пришел ваш тимлид со следующим заданием: узнать, есть ли пользователи, у которых день рождения 1 октября 1990, как у основателя компании. Они хотят вручить ему премиум-подписку на приложение. Проверить это можно с помощью ключевого слова `in`. Оно проверяет вхождение элемента в список или tuple. Проверим:


In [None]:
(1990, 10, 1) in tuple_dates

False

Получили в результате `False`, такого значения нет. Попробуем на значении, которое есть в списке:

In [None]:
(2001, 1, 1) in tuple_dates

True

In [None]:
my_list = dates_to_tuples(dates)
my_list.sort()
my_list

[(1991, 12, 1),
 (1999, 10, 1),
 (2001, 1, 1),
 (2001, 1, 13),
 (2001, 6, 22),
 (2001, 9, 5),
 (2001, 12, 17)]

Метод sort может принимать параметр key(функция), по которому будет произведена сортировка:

в данном случае, сначала в отсортированном списке буду четные, а потом нечетные элементы.

In [None]:
my_list = [7, 5, 8, 2, 11, 1, 14]
my_list.sort(key=lambda x: x%2)
my_list


[8, 2, 14, 7, 5, 11, 1]