8. Типы данных: строки
Строки — это неизменяемый тип данных, предназначенный для хранения текстовой информации. Строки представляют собой последовательности символов.

Строки можно создавать различными способами:

In [None]:

s1 = 'hello' # используя апострофы
s2 = "hello" # используя кавычки
s3 = '''Hello! Have a nice day!''' # используя тройные "апострофы" или тройные кавычки

→ Рассмотрим, какие операции возможно выполнять над строками. Для начала подробнее остановимся на том, как можно извлекать символы и подстроки.

Подстрока — часть исходной строки, состоящая из последовательно идущих символов.

→ В Python нет отдельного типа для хранения одиночных символов, это значит что каждый символ в строке является по своей сути строкой длиной в один символ.


Каждый элемент в строке пронумерован, и начало отсчёта ведётся с нуля. Порядковый номер элемента называют индексом. Чтобы извлечь элемент строки по индексу, нужно написать его внутри квадратных скобок справа от переменной, которая хранит текстовые данные:


In [4]:
s = "Hello!"
print(s[0])
# H
print(s[4])
# o

H
o


Можно извлекать не только одиночные элементы, но и целые подстроки, также используя индексацию:

In [5]:
print(s[1:4])
# ell

ell



Рассмотрим подробно эту конструкцию. Выражение, находящееся внутри квадратных скобок, называется срезом. В общем случае срезы определяются по шаблону:

[начало:конец:шаг],

где начало — это индекс первого символа подстроки;

конец — индекс символа, следующего сразу после подстроки (важно запомнить: символ с указанным индексом сам не включается в подстроку, то есть если вам надо сделать срез по пятый символ включительно, то здесь надо указать значение 6);

шаг — позволяет извлекать не все элементы, а, например, следующие через один друг за другом, через два и т.д.

Не все элементы шаблона обязательно должны использоваться. Например, можно извлечь все символы, начинающиеся с определённого индекса:

In [6]:
s = "Hello!"
print(s[2:])
# llo!

llo!


Или находящиеся до какого-то индекса:

In [7]:
print(s[:4])
# Hell

Hell



Если мы не указываем начало среза, то по умолчанию срезаем с первого символа в строке.

Если не указываем конец среза, то по умолчанию срезаем до конца строки.

Если не указываем значение для шага, то по умолчанию он равен 1.

Рекомендуем не писать 0, если срез начинается с первого символа в строке — просто пропускайте это значение.

Можно извлекать символы, используя только шаг. Например, для извлечения каждого второго символа нужно использовать:

In [8]:
print(s[::2])
# Hlo

Hlo


Отрицательный шаг позволяет развернуть строку:

In [9]:
print(s[::-1])
# !olleH

!olleH


Отрицательным может быть не только шаг, но и сам индекс. Отрицательные индексы нумеруются от последнего символа к первому:

In [10]:
print(s[-1])
# !
print(s[-3:-1])
# lo

!
lo


ОПЕРАЦИИ И ФУНКЦИИ ДЛЯ РАБОТЫ СО СТРОКАМИ

Строки можно складывать друг с другом:

In [11]:
s = "Hel" + "lo!"
print(s)
# Hello!

Hello!


Также можно умножать строку на целое число. Оператор умножения строки на целое число указывает Python дублировать строку заданное числом количество раз:

In [12]:
s = "Hello!"
print(s*3)
# Hello!Hello!Hello!

Hello!Hello!Hello!


Встроенная функция len() позволяет узнать длину строки (то есть количество символов в ней):

In [13]:
s = "Hello!"
print(len(s))
# 6

6


Примечание. Строки как объекты имеют свои встроенные функции — методы. Это функции, которые определены внутри всего типа строк и принадлежат только ему. Методы вызываются по шаблону my_str.<имя_метода>(<аргументы>). То есть метод вызывается от имени объекта строки. Подробнее о том, чем метод отличается от функции, мы поговорим в модуле по объектно-ориентированному программированию. А пока давайте рассмотрим несколько методов строк на примерах ↓

Метод find(substr), определённый для строк, позволяет находить символы и подстроки:

In [14]:
print(s.find('e')) # возвращает индекс
# 1

print(s.find('o!')) # в случае подстроки возвращает индекс первого символа
# 4

1
4


Если символ или подстрока встречаются несколько раз, то возвращается индекс первого вхождения:

In [15]:
print(s.find('l')) # встречается в индексах 2 и 3
# 2

2


Ряд методов позволяет определить, состоит ли строка из цифр, букв или одновременно из букв и цифр:

In [None]:
s = "Hello!"

print(s.isdigit()) # строка состоит только из цифр?
# False

print(s.isalpha()) # строка состоит только из букв?
# False

print(s.isalnum()) # строка состоит только из цифр и букв?
# False


Приведённые ниже методы позволяют привести все буквы к верхнему регистру (заглавным буквам) или к нижнему регистру (строчным буквам). Обратите внимание, что исходная строка не изменяется:

In [16]:
print(s.upper())
# HELLO!

print(s.lower())
# hello!

print(s)
# Hello!

HELLO!
hello!
Hello!


ПРАКТИЧЕСКИЙ ПРИМЕР

При работе со строками часто возникает необходимость разделить строку на несколько подстрок. Допустим, у нас есть строка, в которой записаны цвета через пробел:

In [None]:
colors = 'red blue green'

Чтобы можно было манипулировать этими значениями, мы хотим иметь несколько строк, в каждой из которых будет по одному цвету. Можно было бы использовать метод find() для поиска индексов пробелов, а дальше, используя срезы, извлекать нужные части строк одну за одной. Такой способ может сработать, если нужно разбить строку на две, три части.

А что, если в строке будет находиться сотня таких частей? Подход с ручным поиском и разбиением кажется несколько утомительным и не очень эффективным.

Python и здесь предлагает удобный метод split() для реализации такой идеи:

In [17]:
colors = 'red blue green'
print(colors.split())
# ['red', 'blue', 'green']

['red', 'blue', 'green']


Результат работы этого метода — список строк.

Список — это пронумерованный набор элементов, с которым мы подробно познакомимся в следующем модуле, но факт в том, что мы смогли быстро и безболезненно разбить строку на несколько подстрок по пробелам.

Пробел — так называемый разделитель (separator) по умолчанию, но им может быть что угодно. 

Например, дальше вам придётся много работать с данными, которые вы будете получать в виде csv-файлов.

CSV (Comma-Separated Values — значения, разделённые запятыми) — это файл текстового формата, который используется для представления табличных данных.

Строка таблицы соответствует строке текста в файле, которая содержит одно или несколько полей, разделённых запятыми (comma). Например, мы проводим исследования по классификации животных и получаем такой файл (пример файла взят отсюда):

Здесь у нас перечислены животные и их характеристики. Первая строка — это заголовки. Каждая отдельная строка будет выглядеть примерно так:

In [None]:
animal = 'bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1'

Работать со строкой в таком формате крайне неудобно. Для того чтобы разделить его на отдельные значения, воспользуемся опять же методом split(), но явно укажем, какой у нас разделитель (запятая):

In [18]:
animal = 'bear,1,0,0,1,0,0,1,1,1,1,0,0,4,0,0,1,1'
print(animal.split(','))
# ['bear', '1', '0', '0', '1', '0', '0', '1', '1', '1', '1', '0', '0', '4', '0', '0', '1', '1']

['bear', '1', '0', '0', '1', '0', '0', '1', '1', '1', '1', '0', '0', '4', '0', '0', '1', '1']


В Python есть ещё более удобные способы работы с такими данными, разработанные специально для анализа данных — их мы будем рассматривать в следующем разделе

Строки можно не только разбивать на части, но и соединять части в единую строку. До тех пор, пока мы не научились самостоятельно создавать списки, воспользуемся строкой с цветами, чтобы склеить её, но используя уже другой разделитель:

In [None]:
colors = 'red green blue'
colors_split = colors.split() # список цветов по отдельности
colors_joined = ' and '.join(colors_split) # объединение строк
print(colors_joined)
# red and green and blue

ФОРМАТИРОВАНИЕ СТРОК

→ Довольно часто возникают ситуации, когда нам надо сформировать строку, подставив в неё данные, полученные в процессе выполнения программы, например ввод информации от пользователя, какие-то расчёты.

Допустим, мы запрашиваем у пользователя дату и валюту и хотим вывести курс для пары дата-валюта. Допустим, у нас есть специальная функция get_currency_by_date, которой мы передаём дату и название валюты, и она нам возвращает курс. Затем мы хотим показать эту информацию пользователю в таком виде: Курс валюты «название_валюты» на дату «дата» равен «курс». Мы можем это сделать, перечислив все составляющие фразы через запятую как аргументы функции print():

In [28]:
def get_currency_by_date(cur_date, currency):
    return 86.37
cur_date = input('Enter date: ')
currency = input('Enter currency: ')
rate = get_currency_by_date(cur_date, currency)
print('The', currency, 'currency rate on the date', cur_date,'is', rate)

The 6 currency rate on the date 5 is 86.37


# Enter date:  20.06.2021
# Enter currency:  EUR
# The EUR currency rate on the date 20.06.2021 is 86.37
Если вы хотите протестировать этот код, замените строку rate = get_currency_by_date(cur_date, currency) на rate = 86.37, так как стандартной функции get_currency_by_date не существует. Но совсем скоро вы научитесь писать свои собственные функции для решения самых разных задач, в том числе и для получения курса валют.

Мы решили задачу, но этот способ хорош только для коротких и несложных строк. Даже со строкой из нашего примера легко запутаться — надо всё время следить за запятыми и кавычками.

В Python такую подстановку данных внутрь можно сделать гораздо проще с помощью форматирования строк. Форматирование строк в Python можно сделать различными способами:

с помощью оператора %;
методом format();
f-строками (форматированные строки).
Оператор % является устаревшим способ и не рекомендуется к использованию, но вы можете встретить его, если будете читать чужой код. Рекомендуем использовать метод format() и f-строки (это достаточно новый способ, появился в Python 3.6).

Рассмотрим, как мы можем использовать каждый из этих способов для решения нашей задачи из примера с валютами.

МЕТОД FORMAT()

Комбинация символов открывающейся и закрывающейся фигурных скобок {} указывает, что в это место будет подставлено значение, которое мы передаем как аргумент метода format. Пар фигурных скобок может быть несколько, каждая пара обозначает одно место для подстановки.

print('The {} currency rate on the date {} is {}'.format(currency, cur_date, rate))
Внутри фигурных скобок мы можем указать число — порядковый номер аргумента format. Если числа не проставлять, то значения проставляются в порядке их указания в format().

В примере выше мы выводили значения в том же порядке, в каком они указаны. Если нам требуется, чтобы значения выводились в другом порядке, или хотим одно и тоже значение подставить в строку несколько раз (и при этом не хотим его указывать несколько раз как аргумент), то нам следует явно указать порядковый номер аргумента метода format(), который должен быть подставлен в каждом конкретном месте (помните, что нумерация всегда начинается с нуля):

print('The {0} currency rate on the date {2} is {1}'.format(currency, rate, cur_date))
С помощью форматирования мы также можем задавать, в каком виде нам надо вывести аргументы. Например, мы можем указать, какое количество цифр после запятой выводить для вещественных чисел, или задать ширину строки. Если строка меньшей ширины, чем точность, то она будет дополнена пробелами. Если точность вещественного числа меньше заданной, то число будет дополнено нулями:

print('The {} currency rate on the date {} is {:.3f}'.format(currency, cur_date, rate))
#The EUR currency rate on the date 20.06.2021 is 86.370
Для настройки отображения надо внутри скобок поставить двоеточие и затем задать формат.

В нашем примере формат выглядит так :.3f. Разберём его подробнее. Точка показывает, что мы задаём формат для дробной части, 3 — столько знаков нам надо отобразить, f — задаёт тип, float — вещественное число.

Подробнее про форматы можно прочитать в официальной документации, а здесь есть перевод на русский язык.

F-СТРОКИ

→ Как мы уже указали, этот вариант появился в Python 3.6. f-строки ещё называют форматированными строками или интерполированными строками. При помощи f-строк мы можем не просто подставлять некоторые значения в шаблон, но, кроме того, выполнять вызовы функций, методов и т.п.

Рекомендуется использовать для форматирования вывода именно f-строки, поскольку во многих случаях они удобней и их проще использовать, чем метод format(), а код выглядит более понятным. Кроме того, f-строки — это самый быстрый из методов форматирования строк.

→ Обратите внимание, что по техническим причинам Codeboard не поддерживает использование f-строк. Вы можете попробовать использовать другие редакторы кода. Мы работаем над устранением данной ошибки.

f-строки очень похожи на строку, которую мы пишем перед format(), только перед началом строки мы обязательно должны поставить букву f, а в конце ничего не пишем. Внутри f-строки, так же, как и в format(), используем пару фигурных скобок и внутри указываем имена переменных или выражения, которые надо подставить.

In [29]:
print(f'The {currency} currency rate on the date {cur_date} is {rate}')
#The EUR currency rate on the date 20.06.2021 is 86.37
print(f'The {currency} currency rate on the date {cur_date} is {rate*1.2}')
#The EUR currency rate on the date 20.06.2021 is 103.644

The 6 currency rate on the date 5 is 86.37
The 6 currency rate on the date 5 is 103.644


Для значения в f-строках можно также указывать форматы после двоеточия, как и при использовании метода format. Двоеточие ставим после имени переменной или после выражения:

In [30]:
print(f'The {currency} currency rate on the date {cur_date} is {rate:.3f}')
#The EUR currency rate on the date 20.06.2021 is 86.370

The 6 currency rate on the date 5 is 86.370


ОПЕРАТОР %

→ Мы не будем его подробно рассматривать, так этот оператор уже устарел и не рекомендован к использованию.

Если кратко: внутри строки, на месте для вставок, пишется символ %, и после него проставляются специальный символы, указывающие на тип значения (например, s — строка, d — целое число, f — вещественное число). Также здесь могут быть указаны параметры форматирования каждого значения — количество знаков после запятой, ширина строки и так далее. После окончания строки ставится символ %, и после него, в скобках, прописываются значения, которые мы хотим подставить в строку.

Посмотрим, как это выглядит:

In [31]:
print('The %s currency rate on the date %s is %.2f' % (currency, cur_date, rate))
#The EUR currency rate on the date 20.06.2021 is 86.37

The 6 currency rate on the date 5 is 86.37
