Центр непрерывного образования

# Программа «Python для автоматизации и анализа данных»

Неделя 1 - 2

*Татьяна Рогович, НИУ ВШЭ*  

## Типы данных - контейнеры: списки и кортежи. Срезы.

## Списки (list)

Давайте представим, что при написании программы нам нужно работать, например, с большой базой данных студентов программ дополнительного образования.

Если студентов несколько сотен, нет смысла создавать для каждого отдельную переменную - нам нужно научиться сохранять их всех в одной переменной. Начиная с этого занятия, мы будем изучать типы данных, которые позволяют это делать.

Начнем мы со **списков**. Если вы изучали другие языки программирования, то наверняка знакомы с аналогичным типом данных - массивами.

Давайте для начала попробуем создать список из 3 студентов.

In [2]:
students = ['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']
print(students)
print(type(students))

['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']
<class 'list'>


Пустой список можно создать двумя способами - оператором [] и функцией list().

In [3]:
print([])
print(list())

[]
[]


Список может содержать любые данные - например, числа.  
Давайте создадим список оценок студента.

In [4]:
notes = [6, 5, 7, 5, 8]
print(notes)

[6, 5, 7, 5, 8]


Список может быть даже смешанным. Например, давайте сохраним в одном списке имя студента, его год рождения, средний балл, и логическую переменную, которая будет равна True, если студент раньше учился в ВШЭ.

In [5]:
student1 = ['Ivan Ivanov', 1987, 7.5, True]
print(student1)

['Ivan Ivanov', 1987, 7.5, True]


Список может даже содержать другие списки.  
Давайте создадим еще одного студента по аналогии со student1 и положим этих двух студентов в еще один список.

In [6]:
student2 = ['Maria Smirnova', 1991, 7.9, False]
students = [student1, student2]
print(students)

[['Ivan Ivanov', 1987, 7.5, True], ['Maria Smirnova', 1991, 7.9, False]]


Элементы списков нумеруются, начиная с 0. Мы можем получить доступ к элементу списка по его индексу.

In [9]:
students = ['Ivan Ivanov', 'Tatiana Sidorova', 'Maria Smirnova']
print(students[0]) # первый элемент
print(students[1]) # второй элемент
print(students[-1]) # последний элемент

Ivan Ivanov
Tatiana Sidorova
Maria Smirnova


Ксати, индексация работает и в строках. Там отдельными элементами являются символы.


In [7]:
x = 'слово'
print(x[0])
print(x[-1])

с
о


Мы можем узнать длину списка с помощью функции len() (тоже работает и для строк)

In [10]:
print(len(students)) # количество элементов в списке students
print(len(x)) # количество символов в строке x

3
5


Но, в отличие от строк, список можно изменить.

In [15]:
students[1] = 'Petr Petrov'
print(students)

['Ivan Ivanov', 'Petr Petrov', 'Maria Smirnova']


In [11]:
x[1] = 'a'

TypeError: 'str' object does not support item assignment

Строки - неизменяемый тип данных, поэтому присвоение символа по индексу не сработает.

## Кортежи (tuple)

Кортежи очень похожи на списки.

In [12]:
student = ('Ivan Ivanov', 2001, 7.5, True)
print(student)
print(type(student))

('Ivan Ivanov', 2001, 7.5, True)
<class 'tuple'>


Пустой кортеж можно создать с помощью оператора () либо функции tuple.

In [13]:
print(())
print(tuple())

()
()


Основное отличие кортежей от списков состоит в том, что кортежи нельзя изменять (да-да, прямо как строки).

In [15]:
student[1] = 2002

TypeError: 'tuple' object does not support item assignment

Списки и кортежи могут быть вложены друг в друга.  
Например, пусть в информации о студенте у нас будет храниться не его средний балл, а список всех его оценок.

In [17]:
student = ('Ivan Ivanov', 2001, [8, 7, 7, 9, 6], True)
print(student)

('Ivan Ivanov', 2001, [8, 7, 7, 9, 6], True)


Мы можем обратиться к элементу вложенного списка или кортежа с помощью двойной индексации.

In [18]:
print(student[2][1]) # получили вторую оценку

7


Иногда бывает полезно обезопасить себя от изменений массивов данных и использовать кортежи, но чаще всего мы все-таки будем работать со списками.

### Опасность работы с изменяемыми типами данных

В работе со списками есть важный момент, на который нужно обращать внимание. Давайте рассмотрим такой код:

In [37]:
a = [1, 2, 3]
b = a
b[0] = 4
print(a, b) # изменили b, но a после этого тоже изменился!

[4, 2, 3] [4, 2, 3]


Почему так происходит?  
Дело в том, что переменная a ссылается на место в памяти, где хранится список [1, 2, 3]. И когда мы пишем, что b = a, b начинает указывать на то же самое место. То есть образуется два имени для одного и того же кусочка данных. И после изменения этого кусочка через переменную b, значение переменной a тоже меняется!

Как это исправить? Нужно создать копию списка a! В этом нам поможет метод .copy()

In [35]:
a = [1, 2, 3]
b = a.copy() # теперь переменная b указывает на другой список, который хранится в другом кусочке памяти
b[0] = 4
print(a, b)

[1, 2, 3] [4, 2, 3]


Копию можно создавать и с помощью пустого среза

In [36]:
a = [1, 2, 3]
b = a[:] # по умолчанию берется срез от первого элемента до последнего, то есть копируется весь список a
b[0] = 4
print(a, b)

[1, 2, 3] [4, 2, 3]


Но не путайте изменение с присваиванием!

In [39]:
a = [1, 2, 3]
b = a
a = [4, 5, 6]
print(a, b)

[4, 5, 6] [1, 2, 3]


В примере выше переменная a была не изменена, а перезаписана, она начала указывать на другой список, хранящийся в другом месте памяти, поэтому переменная b осталась нетронута.

### Конкатенация списков и кортежей, метод .append()

На списках и кортежах определен оператор +. По аналогии со строками, он будет склеивать две части выражения.

Но складывать можно только данные одного типа, список с кортежом склеить нельзя.

In [42]:
print([1, 2] + [3, 4])
print((1, 2) + (3, 4))

[1, 2, 3, 4]
(1, 2, 3, 4)


In [44]:
print((1, 2) + [3, 4]) # а так нельзя

TypeError: can only concatenate tuple (not "list") to tuple

Но можно превратить список в кортеж, а потом сложить (или наоборот).

In [46]:
print(list((1, 2)) + [3, 4])
print((1, 2) + tuple([3, 4]))

[1, 2, 3, 4]
(1, 2, 3, 4)


Еще один способ расширить список - метод .append(), который добавляет аргумент в список в качестве последнего элемента.

In [52]:
myList = [0, 1, 2, 3, 4]

myList.append(5)
print(myList)


myList += [6] # эквивалентное append выражение
print(myList)

[0, 1, 2, 3, 4, 5]
[0, 1, 2, 3, 4, 5, 6]


# Индексация и срезы

Строки, кортежи и списки представляют собой последовательности, а это значит, что мы можем обратиться к любому их элементу по индексу.

Для выполнения такой операции в питоне используются квадратные скобки [] после объекта. 
В квадратных скобках указывается желаемый индекс. Индексирование начинается с 0.

In [38]:
s = 'Welcome to "Brasil!"' # заодно обратите внимание на кавычки внутри кавычек (используем разные типы)
print(s)

print(s[0]) # первый элемент
print(s[1]) # второй
print(s[2]) # третий
print(s[-1]) # последний
print(s[-2]) # второй с конца

#Предыдущие действия никак не изменили строку
print(s)

W
e
l
"
!
Welcome to "Brasil!"


Кроме выбора одного элемента с помощью индексирования можно получить подстроку. 
Для этого надо указать индексы границ подстроки через двоеточие. 

Первое число - от какого индекса начинаем, если ничего не написать, то начнем сначала. Второе число (после первого двоеточия) - каким индексом заканчивается срец, если ничего не написать, то питон возьмет последний символ. Третье число (необязательное, после второго двоеточия) - шаг, по умолчанию там стоит 1 (каждая буква).

Таким образом, использовав одно число без двоеточий мы получим один символ. Использовав два числа через двоеточие - срез строки, включая первый индекс и не включая второй (первое число обязательно меньше второго). Использовав три числа через два двоеточих - срез шаги с определенным шагом, заданным третьим числом.

In [39]:
print(s[1:])
print(s[:4]) # четыре первых символа до порядкового номера 4
print(s[:]) # копия строки
print(s[:-1]) # вся строка кроме последнего символа
print(s[::2]) # также можно выбирать символы из строки с каким-то шагом
print(s[::-1]) # например, с помощью шага -1 можно получить строку наоборот

elcome to "Brasil!"
Welc
Welcome to "Brasil!"
Welcome to "Brasil!
Wloet Bai!
"!lisarB" ot emocleW


По аналогии со строками, у списков и кортежей тоже можно брать срезы.

In [26]:
myList = [0, 1, 2, 3, 4, 5]
myTuple = (0, 1, 2, 3, 4, 5)

In [27]:
print(myList[1:]) # берем все, начиная с элемента с первым индексом
print(myTuple[2:])

[1, 2, 3, 4, 5]
(2, 3, 4, 5)


In [28]:
print(myList[:3]) # берем все до элемента с третьим индексом (невключительно)
print(myTuple[:-1])

[0, 1, 2]
(0, 1, 2, 3, 4)


In [33]:
print(myList[::2]) # берем все четные элементы
print(myTuple[1::2]) # берем все нечетные элементы

[0, 2, 4]
(1, 3, 5)
