# Программирование для всех (основы Python)

*Алла Тамбовцева, НИУ ВШЭ*

*Данный ноутбук частично основан на [лекции](https://github.com/ischurov/pythonhse) Щурова И.В., курс «Программирование на языке Python для сбора и анализа данных» (НИУ ВШЭ).*

## Индексируемые структуры: строки и списки, методы `.split()` и `.join()`

* Индексируемые и неиндексируемые структуры, изменяемость и неизменяемость
* Функции и методы, примеры методов на строках
* Списки и примеры методы на списках
* Объединяем строки и списки: методы `.split()` и `.join()`

### Типы объектов в Python

В предыдущей лекции мы познакомились с объектами базовых типов в Python:
    
* тип `integer`, сокращается до `int`, целые числа;
* тип `float`, от *floating point numbers*, числа с плавающей точкой – дробные или вещественные числа;
* тип `boolean`, сокращается до `bool`, логические значения `True` и `False`;
* тип `string`, сокращается до `str`, текстовые строки.

Объекты первых трёх типов являются атомарными – не делятся на части, однако в Python существуют и составные объекты. Посмотрим на пример составного объекта – строковой переменной с текстом внутри:

In [1]:
text = "Python will help you, belive"

На текст можно смотреть как на **последовательность** символов, как на упорядоченный набор значений. Другими словами, строка – это **индексируемая** структура данных в Python – структура, элемент которой можно выбрать по порядковому номеру или **индексу**. В стандартной библиотеке Python к индексируемым структурам относятся следующие типы:

* строки (тип `string`);
* кортежи (тип `tuple`);
* списки (тип `list`).

Число элементов в любом таком объекте можно узнать, запросив **длину** последовательности через функцию `len()`:

In [2]:
print(len(text))

28


Из последовательности можно выбирать символы по их индексу (указывается в квадратных скобках). Всё довольно интуитивно, однако стоит учесть, что в Python, как в большинстве языков программирования, нумерация начинается с нуля:

In [3]:
print(text[0]) # 1-ый элемент
print(text[2]) # 3-ий элемент

P
t


Что удобно – элементы можно отсчитывать и с конца, тогда индекс будет отрицательным:

In [4]:
print(text[-1]) # последний элемент
print(text[-3]) # 3-ий элемент с конца

e
i


Если мы укажем некорректный индекс – слишком большое число, мы получим ошибку индекса, исключение `IndexError`:

In [5]:
print(text[30])

IndexError: string index out of range

А если индекс будет некорректного типа, например, дробный, а не целочисленный – ошибку `TypeError`:

In [6]:
print(text[5.5])

TypeError: string indices must be integers

Кроме того, можно осуществлять выбор сразу нескольких элементов, если они стоят подряд. Для этого используются **срезы** (они же *slices*), два индекса указываются через двоеточие, левая граница указанного интервала включается в выбор, а правая – нет:

In [7]:
print(text[12:16]) # элементы 12, 13, 14, 15

help


Если указать только левую границу, будут выбраны все элементы до конца:

In [8]:
print(text[22:])

belive


А если только правую – все элементы с начала:

In [9]:
print(text[:7])

Python 


Если проигнорировать обе границы, будут выбраны все элементы:

In [10]:
print(text[:])

Python will help you, belive


Строки – не единственные последовательности в Python, и, конечно, чаще мы будем работать не с текстами, а с наборами числовых значений. Однако все последовательности устроены одинаково, понимая, как осуществляется выбор элементов на строках, легко будет освоить работу с числовыми массивами и таблицами.

### Функции и методы

Рассмотрим на примере строк ещё один ключевой момент, который позволит понимать дальнейшие конструкции в коде, а именно – различие между функциями и методами. До настоящего момента мы сталкивались только с функциями. Как мы уже убедились, функция – команда, которая принимает на вход какой-то агрумент и производит с ним определённую операцию. А что такое метод? **Метод** – функция, определённая на объектах фиксированного типа. Разберёмся с этим на примерах. 

Итак, у нас была функция `print()`. Она совершенно «всеядная», она принимает на вход объекты совершенно разных типов, объединяет их в одну строку и выводит её на экран:

In [11]:
# типы str, float, int и boolean

print("Hello!", 2.5, "+", 4.5, "=", 7, True, "or", False)

Hello! 2.5 + 4.5 = 7 True or False


Функция `len()` для определения длины последовательности – тоже вполне универсальная. Мы пока не рассматривали другие последовательности, но можно проверить, что она вычисляет длину у разных объектов:

In [12]:
print(len("abc")) # строка
print(len([1, 3, 7, 8])) # список – перечень в квадратных скобках
print(len((5, 0))) # кортеж – перечень в круглых скобках

3
4
2


А вот методы у каждого типа данных свои. У строк будет свой набор методов, у списков – свой, у таблиц – тоже, и так далее. Это выглядит вполне логично – операции, которые производятся с текстом (сделать буквы заглавными, разбить текст на части и подобное), не подходят для чисел или таблиц. В отличие от функций, методы пишутся не перед объектом, а после него через точку. Рассмотрим примеры некоторых методов на строках, используя переменную `text`: 

In [13]:
# метод .upper() делает все буквы заглавными
# метод .lower() делает все буквы строчными
# метод .isalnum() проверяет, все ли символы являются буквами или цифрами

print(text.upper())
print(text.lower())
print(text.isalnum())

PYTHON WILL HELP YOU, BELIVE
python will help you, belive
False


Как и функции (методы – тоже функции), методы могут принимать на вход аргументы:

In [1]:
print(text.startswith("Python"))
print(text.endswith("!"))

NameError: name 'text' is not defined

Чтобы узнать, какие ещё методы есть, в Jupyter Notebook после названия переменной можно поставить точку и нажать на клавиатуре *Tab* (в Google Colab – подождать или нажать на стрелку вниз). А документацию по конкретному методу можно запросить через `help()`:

In [16]:
help(text.replace)

Help on built-in function replace:

replace(old, new, count=-1, /) method of builtins.str instance
    Return a copy with all occurrences of substring old replaced by new.
    
      count
        Maximum number of occurrences to replace.
        -1 (the default value) means replace all occurrences.
    
    If the optional argument count is given, only the first count occurrences are
    replaced.



Грех не воспользоваться этим методом:

In [17]:
text.replace("help", "kill")

'Python will kill you, belive'

И последний важный момент, который будет актуален не только для строк. Выше мы много чего проделали со строкой `text`. Давайте посмотрим на неё:

In [18]:
print(text)

Python will help you, belive


Ничего в строке `text` не изменилось, хотя мы изменили регистр (строчные/заглавные) и даже разбивали её. Это объясняется тем, что строки – **неизменяемый тип**. А значит, методы возвращают изменённую копию строки, а не вносят в неё изменения «как есть». Это во многом удобно, так как защищает данные от случайных изменений. Чтобы сохранить изменения, строку нужно будет перезаписать через `=`:

In [19]:
text = text.upper()
print(text)

PYTHON WILL HELP YOU, BELIVE


Итак, объекты разных типов могут быть **изменяемыми** (англ. *mutable*) и **неизменяемыми** (англ. *immutable*), плюс, даже если объект изменяемый, какие-то методы будут его «молча» изменять, какие-то – возвращать изменённую копию и менять оригинал, а какие-то – изменять тогда, мы пропишем это в специальном аргументе. Понимание этих особенностей помогут нам в дальнейшем при работе с таблицами, так как нам нужно будет решать, например, сохранить результат сортировки в данных, удалить ли строки с пропусками насовсем и проч.

В рамках этой лекции мы не будем рассматривать все типы объектов, но отметим на будущее, какие из базовых типов изменяемые, а какие – нет.

Изменяемые:

* тип `list` (список);
* тип `set` (множество);
* тип `dict` (словарь).

Неизменяемые:

* типы `int`, `float`, `bool`, `str`;
* тип `tuple` (кортеж).

### Списки

Создадим список `age` из значений возраста респондентов. Элементы списка перечисляются в квадратных скобках через запятую:

In [26]:
age = [25, 35, 48, 20]
print(age)

[25, 35, 48, 20]


Список, как и кортеж, может хранить элементы любого типа, необязательно числового. Например, мы можем создать список имён `name`, полностью состоящий из строк:

In [27]:
name = ["Ann", "Nick", "Ben", "George", "James"]
print(name)

['Ann', 'Nick', 'Ben', 'George', 'James']


А можем создать список, состоящий из элементов разных типов. Представим, что не очень сознательный исследователь закодировал пропущенные значения в списке текстом, написав «нет ответа»:

In [28]:
mixed = [23, 25, "нет ответа", 32]
print(mixed)

[23, 25, 'нет ответа', 32]


Элементы разных типов спокойно уживаются в списке: Python не меняет тип элементов. Все элементы, которые являются строками, останутся строками, а числа – числами. Список может иметь более сложную структуру, например, представлять собой список списков:

In [29]:
L = [[1, 2, 3], [4, 5]]
print(L)

[[1, 2, 3], [4, 5]]


Как и в случае со строками, у списка можно определить длину:

In [30]:
print(len(age))

4


Или выбирать элементы по индексам или через срезы:

In [31]:
print(age[0])
print(age[1:4])

25
[35, 48, 20]


Раз список – изменяемая структура, мы можем обращаться к уже существующему списку, выбирать в нём элемент и заменять его, не перезаписывая весь список «с нуля». Например, заменим последний элемент списка `age` на число 30:

In [32]:
age[-1] = 30
print(age) 

[25, 35, 48, 30]


А ещё можно дописывать элементы в конец списка. Для этого существует два метода: `.append()` и `.extend()`. Метод `.append()` используется для присоединения одного элемента, `.extend()` – для добавления целого списка.

In [33]:
age.append(27) # добавили 27
print(age)

[25, 35, 48, 30, 27]


In [34]:
age.extend([43, 33]) # добавили 43 и 33
print(age)

[25, 35, 48, 30, 27, 43, 33]


Важный момент: методы `.append()` и `.extend()`, да и почти все методы, которые затрагивают исходный список, «молча» вносят изменения в сам список, а не возвращают его обновлённую копию. Возвращают они пустое значение `None`, поэтому использовать одновременно, например, `.append()` и `=` для изменения списка – ошибочное решение:

In [35]:
# якобы добавляем 90 и сохраняем обновленный список в age2

age2 = age.append(90)
print(age2) # но нет

None


Методы `.append()` и `.extend()` приписывают значения только в конец списка. Для добавления элементов в любое другое место существует метод `.insert()`, он «втискивает» элемент на место с указанным индексом:

In [36]:
# добавили 29 четвертым элементом (индекс 3)

age.insert(3, 29)
print(age)

[25, 35, 48, 29, 30, 27, 43, 33, 90]


Также списки можно склеивать, то есть использовать операцию, которая называется **конкатенацией**. В этом смысле списки очень похожи и на строки, и на кортежи, и для их конкатенации также используется знак `+` (история про перегрузку операторов, когда одни и те же операторы выполняют разные операции на разных типах, мы уже такое обсуждали):

In [37]:
L = [4, 5, 6] + [7, 8, 9]
print(L)

[4, 5, 6, 7, 8, 9]


Запись через `+` кажется очень интуитивной и заманчивой, но не стоит ей часто пользоваться, когда списки очень большие и их много. При такой конкатенации списков происходит создание нового списка, который «склеивается» из отдельных частей, чего не происходит при использовании `.extend()`: там элементы просто дописываются в уже существующий список. Поэтому приписывание одного списка в конец другого быстрее и эффективнее делать именно через `.extend()`.

На данный момент мы достаточно хорошо познакомились со списками. Но списки не так просты, как кажется. И это снова связано с тем, что список – изменяемый тип. Давайте попробуем сделать следующее: скопировать один список в другой путем присваивания.

In [38]:
age2 = age
print(age, age2)

[25, 35, 48, 29, 30, 27, 43, 33, 90] [25, 35, 48, 29, 30, 27, 43, 33, 90]


Пока все ожидаемо. А теперь допишем в `age2` элемент 18:

In [39]:
age2.append(18)

И сравним оба списка:

In [40]:
print(age, age2)

[25, 35, 48, 29, 30, 27, 43, 33, 90, 18] [25, 35, 48, 29, 30, 27, 43, 33, 90, 18]


Несмотря на то, что список `age` мы не трогали, он изменился точно так же, как и список `age2`! Что произошло? На самом деле, когда мы записали `age2 = age`, мы скопировали не сам список, а ссылку на него. Другими словами, проводя аналогию с папкой и ярлыком, вместо того, чтобы создать новую папку `age2` с элементами, такими же, как в `age`, мы создали ярлык `age2`, который сам по себе ничего не представляет, а просто ссылается на папку `age`.

Так как же тогда копировать списки? Можно воспользоваться методом `.copy()`:

In [41]:
age2 = age.copy() 
age2.append(18)

print(age)
print(age2)

[25, 35, 48, 29, 30, 27, 43, 33, 90, 18]
[25, 35, 48, 29, 30, 27, 43, 33, 90, 18, 18]


Проследить разницу в пошаговом исполнении кода можно в [визуализаторе](https://pythontutor.com/visualize.html) кода от Pythontutor.

### Объединяем строки и списки: методы `.split()` и `.join()`

Одни из самых распространённых методов на строках – методы `split()` и `.join()`. Первый нужен для того, чтобы разбивать строку на части, а второй – чтобы, напротив, склеивать перечень строк в одну большую строку. Допустим, у нас есть строка с текстом и мы хотим разбить его на слова. Применим метод `.split()`:

In [1]:
s = "1 2 3"
s.split()

['1', '2', '3']

По умолчанию `.split()` разбивает строку по пробелу и возвращает список, состоящий из частей строки. Но в качестве разделителя можно указать любой набор символов:

In [2]:
date = "01-02-2023"
date.split("-")

['01', '02', '2023']

Метод `.split()` удобно сочетать с функцией `input()`, если мы знаем, что пользователь должен вводить с клавиатуры несколько элементов:

In [3]:
inp = input().split()
inp

20 30


['20', '30']

Однако стоит учитывать, что метод `.split()` всегда возвращает список строк. Если мы захотим работать с результатами ввода как с числами, их необходимо будет преобразовать в соответствующий тип.  Проще всего это сделать через цикл или функцию `map()`, но её мы обсудим позже, поэтому пока мы можем просто извлечь из списка элементы по индексу и преобразовать их в числа по-отдельности. Вычислим сумму чисел, которые ввел пользователь (нумерация элементов в Python начинается с нуля, поэтому первый элемент – это нулевой, а второй – первый):

In [4]:
int(inp[0]) + int(inp[1])

50

Метод `.join()` производит обратную операцию – конкатенацию строк. Он склеивает перечень строк в одну строку. Метод применяется к строке – разделителю, который мы будем использовать при склеивании, а в качестве аргумента указывается перечень строк (список или кортеж).

In [5]:
print("-".join(["A", "B", "C"]))

A-B-C


In [6]:
print("\n".join(["A", "B", "C"]))  # \n – переход на новую с

A
B
C


In [7]:
print("\t".join(["A", "B", "C"]))  # \t – табуляция

A	B	C
