# Строки (```str```)

[Строковый тип](https://docs.python.org/3.9/library/stdtypes.html#text-sequence-type-str) данных в Python называется ```str```. Для создания строки можно использовать либо функцию ```str``` либо строковые литералы. Их в Python четыре вида: одинарные кавычки, двойные кавычки, тройные одинарные кавычки и тройные двойные кавычки. 

In [1]:
s_1 = ''
s_2 = "foo"
s_3 = '''bar'''
s_4 = """baz"""
print('type(s_1) ->', type(s_1))
print('type(s_2) ->', type(s_2))
print('type(s_3) ->', type(s_3))
print('type(s_4) ->', type(s_4))

type(s_1) -> <class 'str'>
type(s_2) -> <class 'str'>
type(s_3) -> <class 'str'>
type(s_4) -> <class 'str'>


Длинные строки можно оформлять в несколько строк для этого используются либо круглые скобки, либо символ ```\```. Обрамление строки в круглые скобки позволяет переносить ее части на разные строки. Отсутствие запятых является обязательным, иначе получится не строка, а кортеж - одна из коллекций. Символ ```\``` означает, что текущая строка не закончена, и она будет объединена со следующей.

In [2]:
long_str_1 = (
    'foo' 
    'bar' 
    'baz'
)
long_str_2 = 'foo' \
             'bar' \
             'baz'
print(long_str_1)
print(long_str_2)

foobarbaz
foobarbaz


Внутри одинарных кавычек можно использовать дойные, а внутри тройных можно использовать одинарные и двойные без дополнительного экранирования. Использование одинарных кавычек внутри строки, созданной с помощью одинарных кавычек, потребует экранирования. Оно осуществляется с помощью символа ```\```, который указывается перед экранируемым символом.

In [3]:
s_1 = '"Flying Circus"'
s_2 = '\'Monty Python\''
s_3 = '''"spam", 'spam', spam'''
print(s_1)
print(s_2)
print(s_3)

"Flying Circus"
'Monty Python'
"spam", 'spam', spam


В строках есть целый ряд специальных символов, обозначающихся с помощью экранирования, например, перенос строки ```\n```, табуляция ```\t```, перевод каретки ```\r```, backspace ```\b``` и другие.

In [4]:
s = '\tspamalot\n2006\b4'
print(s)

	spamalot
2004


В Python реализовано несколько видов строк, которые обозначаются разными префиксами перед открывающей кавычкой. Обычные строки не используют никаких кавычек. Обратите внимание, что при использовании функции ```print``` специальные символы были интерпретированы как невидимые. Для того, чтобы оставить эти символы "как есть" в Python используется префикс ```r```, означающий "сырые" строки. В таких строках экранированные символы, остаются без изменений.

In [5]:
s = r'\tspamalot\n2006\b4'
print(s)

\tspamalot\n2006\b4


Еще один вид строк - это байтовые строки. Они обозначаются префиксом ```b```. При этом тип такой строки будет уже не ```str```, а ```bytes```.

In [6]:
s = b'\tspamalot\n2006\b4'
print(s)
print('type(s) ->', type(s))

b'\tspamalot\n2006\x084'
type(s) -> <class 'bytes'>


Подробнее со спец. символами и префиксами строк можно ознакомиться в [документации](https://docs.python.org/3.9/reference/lexical_analysis.html#strings).

## Операции со строками

Строки позволяют использовать некоторые арифметические операторы и их in-place аналоги. Например, ```+``` для конкатенации (объединения), а ```*``` для размножения строки.

In [7]:
a = '-'
b = '*'
print('a + b =', a + b)
print('a * 10 =', a * 10)

a += b
print('a += b ->', a)
a *= 10
print('a *= 10 ->', a)

a + b = -*
a * 10 = ----------
a += b -> -*
a *= 10 -> -*-*-*-*-*-*-*-*-*-*


Строки это одна из коллекций. Одной из базовый операций с коллекциями является получение её длины. Для этого в Python используется встроенная функций ```len```. В качестве аргумента она принимает любую коллекцию.

In [8]:
s = 'foo_bar'
print('len(s) ->', len(s))

len(s) -> 7


Строки - это коллекция строк. Нет, не символов. В Python нет символа как отдельного типа данных. Каждый символ также является строкой. Представление строки как коллекции позволяет выполнять ряд действий, характерных для коллекций, например, брать элемент по индексу или брать срез. Индексирование любой последовательности в Python, как и в большинстве других языков, начинается с нуля. Для получения элемента по его индексу достаточно указать коллекцию и в квадратных скобках указать его индекс.

In [9]:
s = 'foo_bar'
print('s[0] =', s[0])
print('s[1] =', s[1])
print('type(s[0]) ->', type(s[0]))
print('type(s[1]) ->', type(s[1]))

s[0] = f
s[1] = o
type(s[0]) -> <class 'str'>
type(s[1]) -> <class 'str'>


Тот факт, что один символ в Python тоже является строкой позволяет бесконечно обращаться по индексу.

In [10]:
s = 'eggs'
print('s[2] =', s[2])
print('s[2][0] =', s[2][0])
print('s[2][0][0][0][0][0] =', s[2][0][0][0][0][0])

s[2] = g
s[2][0] = g
s[2][0][0][0][0][0] = g


В Python существуют не только неотрицательные индексы, но и отрицательные. В этом случае индекс равный ```-1``` указывает на последний элемент коллекции. Использование отрицательных индексов, особенно ```-1```, очень полезно. Это позволяет удобно получать последний элемент коллекции, без необходимости писать длинной выражение ```len(s) - 1```. Обратите внимание, что для получения последнего элемента от длины необходимо отнять 1, т. к. индексация начинается с нуля.

In [11]:
s = 'spiced ham'
print('s[0] =', s[0])
print('s[-1] =', s[-1])
print('s[len(s) - 1] =', s[len(s) - 1])

s[0] = s
s[-1] = m
s[len(s) - 1] = m


На следующей схеме показано каким индексам какие элементы соответствуют. В верхней части указаны отрицательные индексы, а в нижней неотрицательные.

<img src="../image/index.png" align="center">

Стоит помнить, что обращение к несуществующим индексам вызывает ошибку ```IndexError```. 

In [12]:
s = 'pacman'
print(s[6])

IndexError: string index out of range

Взятие среза (```slice```) - это операция выбора подпоследовательности из исходной последовательности. Срезы получают, используя квадратные скобки и указывая три значения: начальное значение ```start```, конечное значение ```stop``` и шаг ```step```. Синтаксически это выглядит следующим образом:

```python
sequence[start:stop:step]
```

Начальное значение или ```start``` определяет начиная с какого элемента будет браться подпоследовательность или срез. Конечное значение или ```stop``` определяет верхнюю границу. Шаг (```step```) задает интервалы, через которые берутся элементы, например можно взять каждый второй элемент. Синтаксис среза аналогичен математическому интервалу $[start, stop)$, т. е. граница ```stop``` не включается. Все эти элементы не обязательны. По умолчанию ```start``` равен нулю, ```stop``` равен длине последовательности, а ```step``` равен 1.

In [13]:
s = '123456789'
print('Все последовательность:', s[:])
print('Все последовательность:', s[::])
print('Последовательность в обратном порядке:', s[::-1])
print('Срез одного элемента:', s[0:1])
print('Первые три символа:', s[:3])
print('Последние 4-е символа:', s[-4:])
print('Каждый второй символ:', s[::2])
print('Каждый второй символ от 7-го до 2-го (в обратном порядке):', s[7:2:-2])
print('Каждый третий символ от 2-го до 7-го:', s[2:7:3])

Все последовательность: 123456789
Все последовательность: 123456789
Последовательность в обратном порядке: 987654321
Срез одного элемента: 1
Первые три символа: 123
Последние 4-е символа: 6789
Каждый второй символ: 13579
Каждый второй символ от 7-го до 2-го (в обратном порядке): 864
Каждый третий символ от 2-го до 7-го: 36


Срезы несколько отличаются от простого индексирования. Границы среза могут выходить за допустимые границы коллекции. При этом никаких исключений появляться не будет. Если указан срез, который не может содержать никаких элементов, например, как в последнем примере ниже, то такой срез будет возвращать пустую коллекцию.

In [14]:
s = '123456789'
print('stop больше длины коллекции:', s[:20:5])
print('stop больше длины коллекции:', s[:-20:-5])
print('step больше длины коллекции:', s[::10])
print('start больше длины коллекции:', s[10:])

stop больше длины коллекции: 16
stop больше длины коллекции: 94
step больше длины коллекции: 1
start больше длины коллекции: 


In [15]:
s = '123456789'
print('Положительные границы и отрицательный шаг:', s[6:2:-1])
print('Отрицательные границы и отрицательный шаг:', s[-3:-7:-1])

Положительные границы и отрицательный шаг: 7654
Отрицательные границы и отрицательный шаг: 7654


Бывают ситуации, когда нужно брать один и тот же срез в разных местах программы. В этом случае постоянно писать его было бы не удобно. Для этого в Python существует специальный объект ```slice```. Его можно создать с помощью одноименной функции ```slice```. Эта функция может принимать от одного до трех аргументов, соответствующих значениям ```start```, ```stop```, ```step```. Применять срезы, созданные таким образом, достаточно просто. 

```python
sequence[my_slice]
```

Это существенно повышает читаемость кода, когда необходимо использовать один и тот же срез несколько раз.

In [16]:
YEAR = slice(4)  # указан только stop
MONTH = slice(5, 7)  # указаны start и stop, step поумолчанию равен 1
DAY = slice(8, 10)

date = '2020-11-08'
print('год:', date[YEAR])
print('месяц:', date[MONTH])
print('день:', date[DAY])

год: 2020
месяц: 11
день: 08


Остается один вопрос. Почему
[последний элемент](https://docs.python.org/3/tutorial/introduction.html#strings)
среза не включается в результат? Ответ на него от части заключается в
удобстве использования. Такая реализация "защищает" от непреднамеренного
выхода за границу последовательности. С другой стороны индексы в Python
на самом деле расположены между элементами.

```python
-4  -3  -2  -1
 +---+---+---+---+
 | s | p | a | m |
 +---+---+---+---+
 0   1   2   3   4
```

Таким образом они указывают не на сам элемент, а на его начало. Или с
другой стороны на место вставки нового элемента. Такой подход полностью
объясняет поведение срезов. Если в примере выше взять срез `[1:2]` то
ожидаемо получиться строка `pa`:

```python
 +---+---+---+---+
 | s | p | a | m |
 +---+---+---+---+
 0   1   2   3   4
     |       |
     +-------+
```


## Методы строк

Строки имеют большое количество разных методов, которые предлагают разные способы обработки строк. Все эти методы можно разделить на две группы. Первая группа - это методы для проверки каких-либо правил, обычно они начинаются с префикса ```is``` и возвращают ```True``` или ```False```. Вторая группа - это методы для манипуляции строкой.

В строках префиксом называют подстроку, с которой начинается строка. У строки может быть несколько префиксов. Суффикс -- это, наоборот, подстрока, которой заканчивается исходная строка.

<img src="../image/prefix_suffix.png" align="center">

Вот некоторые методы проверок:
- ```isdigit``` - строка состоит из цифр
- ```isalpha``` - строка состоит из буквенных символов
- ```islower``` - строка в нижнем регистре
- ```isspace``` - строка состоит только из пробельных символов
- и [другие](https://docs.python.org/3.9/library/stdtypes.html#text-sequence-type-str)

In [17]:
print('"42".isdigit() ->', '42'.isdigit())
print('"-42".isdigit() ->', '-42'.isdigit())
print('"42.0".isdigit() ->', '42.0'.isdigit())
print('"42.5".isdigit() ->', '42.5'.isdigit())

"42".isdigit() -> True
"-42".isdigit() -> False
"42.0".isdigit() -> False
"42.5".isdigit() -> False


In [18]:
print('"abc".isalpha() ->', 'abc'.isalpha())
print('"rZЩ".isalpha() ->', 'rZЩ'.isalpha())
print('"ab!".isalpha() ->', 'ab!'.isalpha())
print('"ab3".isalpha() ->', 'ab3'.isalpha())

"abc".isalpha() -> True
"rZЩ".isalpha() -> True
"ab!".isalpha() -> False
"ab3".isalpha() -> False


Методов манипуляции строкой достаточно много:
- ```removeprefix``` - удаление префикса (>= 3.9) ([PEP 616](https://www.python.org/dev/peps/pep-0616/))
- ```removesuffix``` - удаление суффикса (>= 3.9) ([PEP 616](https://www.python.org/dev/peps/pep-0616/))
- ```find``` - поиск подстроки в строке
- ```lower``` - приведение строки к нижнему регистру
- ```upper``` - приведение строки к верхнему регистру
- ```split``` - разбиение строки по разделителю
- ```strip``` - удаление символов с начала и конца строки
- и [другие](https://docs.python.org/3.9/library/stdtypes.html#text-sequence-type-str)

In [19]:
s = 'monty_python'

# метод поиска подстроки в строке find стоит использовать, 
# когда нужно найти положение, иначе лучше воспользоваться in
print('find ->', s.find('python'))

print('upper ->', s.upper())
print('split ->', s.split('_'))

# эти два метода ввели в версии 3.9
print('removeprefix ->', s.removeprefix('monty_'))
print('removesuffix ->', s.removesuffix('_python'))

find -> 6
upper -> MONTY_PYTHON
split -> ['monty', 'python']
removeprefix -> python
removesuffix -> monty


Одними из самых полезных операций над строками являются замена подстрок на другие. 

In [20]:
# Заменить подстроку 'foo' на 'baz'
print('foo_bar'.replace('foo', 'baz'))

# replace по умолчанию заменяет все схождения
print('foo_bar'.replace('o', 'a'))

baz_bar
faa_bar


Проблемой становиться ситуация, когда нужно заменить несколько разных подстрок на несколько других подстрок. Писать несколько ```replace``` подряд не выход. Для этого можно воспользоваться методом ```translate```. 

Ниже приведен пример замены нескольких подстрок одновременно. Здесь используются новые структуры данных, такие как словарь и список, которые будут рассмотрены далее.

In [21]:
s = 'строка: (со знаками), препинания. и, пробелами!'

# подготовим словарь замен. 
# знаки препинания ,.:!() будут заменяться на пустую строку, 
# т.е. удаляться
d = dict.fromkeys(list(',.:!()'), '')
# дополнительно все пробелы заменим на нижнее подчеркивание
d[' '] = '_'
print('Словарь замен:', d)

# Создания таблицы замен
tran_tab = str.maketrans(d)
# замена символов в исходной строке
print(s.translate(tran_tab))

Словарь замен: {',': '', '.': '', ':': '', '!': '', '(': '', ')': '', ' ': '_'}
строка_со_знаками_препинания_и_пробелами


## Хранение строк в памяти

В Python строки не имеют постоянного размера в памяти. Python поддерживает минимум три кодировки для хранения строк:
- ```utf-8``` ([wiki](https://en.wikipedia.org/wiki/UTF-8));
- ```utf-16``` ([wiki](https://en.wikipedia.org/wiki/UTF-16));
- ```utf-32``` ([wiki](https://en.wikipedia.org/wiki/UTF-32)).

Символы закодированные ```utf-8``` занимают в памяти по 1 байту, она полностью совместима с ascii. Кодировка ```utf-16``` требует двух байт на один символ, а ```utf-32``` уже четырех.

Интерпретатор Python следит за тем какие символы содержаться в строке. Пока все символы удовлетворяют кодировке ```utf-8``` все символы строки будут занимать 1 байт. Как только в строке появляется символ из кодировки ```utf-16``` или ```utf-32```, все символы строки начинают занимать столько байт, сколько требует кодировка этого символа.

In [22]:
import sys

print('Строка utf-8:')
s_1 = 'abc'  # только acii символы, кирилица (utf-8)
print(f'{sys.getsizeof(s_1) = }')

s_2 = s_1 + 'd'  # все еще utf-8
print(f'{sys.getsizeof(s_2) = }')
print(f'Размер 1 символа: {sys.getsizeof(s_2) - sys.getsizeof(s_1)} байт')
print('-' * 50)

print('Строка utf-16:')
s_3 = s_2 + 'ы'  # unicode (utf-16)
print(f'{sys.getsizeof(s_3) = }')
s_4 = s_3 + 'w'  # уже utf-16
print(f'{sys.getsizeof(s_4) = }')
print(f'Размер 1 символа: {sys.getsizeof(s_4) - sys.getsizeof(s_3)} байта')
print('-' * 50)

print('Строка utf-32:')
s_5 = s_4 + '📼'  # unicode (utf-32)
print(f'{sys.getsizeof(s_5) = }')
s_6 = s_5 + 'w'  # еще больше utf-32
print(f'{sys.getsizeof(s_6) = }')
print(f'Размер 1 символа: {sys.getsizeof(s_6) - sys.getsizeof(s_5)} байта')

Строка utf-8:
sys.getsizeof(s_1) = 52
sys.getsizeof(s_2) = 53
Размер 1 символа: 1 байт
--------------------------------------------------
Строка utf-16:
sys.getsizeof(s_3) = 84
sys.getsizeof(s_4) = 86
Размер 1 символа: 2 байта
--------------------------------------------------
Строка utf-32:
sys.getsizeof(s_5) = 104
sys.getsizeof(s_6) = 108
Размер 1 символа: 4 байта


Все тоже самое, но в более которком виде:

In [23]:
import sys

prefix = 'abc'
suffix = 'w'
symbols = {
    'utf-8': 'd',
    'utf-16': 'ы',
    'utf-32': '🐛',
}

size_prefix = sys.getsizeof(prefix)
print(f'{size_prefix = }')
print('-' * 50)
for encoding, char in symbols.items():
    print('Строка ' + encoding + ':')
    s_1 = prefix + char
    s_2 = s_1 + suffix
    print(f'{sys.getsizeof(s_2) = }')
    print(f'Размер 1 символа: {sys.getsizeof(s_2) - sys.getsizeof(s_1)} байт')
    print('-' * 50)

size_prefix = 52
--------------------------------------------------
Строка utf-8:
sys.getsizeof(s_2) = 54
Размер 1 символа: 1 байт
--------------------------------------------------
Строка utf-16:
sys.getsizeof(s_2) = 84
Размер 1 символа: 2 байт
--------------------------------------------------
Строка utf-32:
sys.getsizeof(s_2) = 96
Размер 1 символа: 4 байт
--------------------------------------------------


## Форматирование строк

Существуют несколько способов форматирования строк:
- оператор ```%```
- метод ```format```
- ```f```-строки
- шаблонные строки (```Template```)

Использование оператора ```%``` называют "классическим" форматированием строки. Этот оператор применяется к строке и принимает один аргумент. Эта операция может использовать спецификаторы формата, например, ```%x```. Спецификаторы формата - это специальные конструкции, размещаемые внутри строки. Они выполняют несколько функций:
- указывают место вставки аргумента (не актуально для ```f```-строк);
- преобразования значения аргумента;
- дополнительные возможности, такие как: указания длины, точности, выравнивание и др.

Например, следующий код преобразует некоторое целочисленное значение в строковое и представляет его в шестнадцатеричной системе:

In [24]:
errno = 50159747054
s = '%x'
print(s % errno)

badc0ffee


In [25]:
pi = 3.141592653589793
s = 'π = % 8.4f'
print(s % pi)

π =   3.1416


В связи с тем, что оператор ```%``` принимает только один аргумент, для передачи нескольких значений необходимо передавать кортеж. Это одна из других структур данных, о ней речь пойдет чуть позже. Тогда каждое значение будет поставлено на соответствующее место.

In [26]:
msg = 'I’m a teapot'
errno = 50159747054
s = '0x%x: %s'
print(s % (errno, msg))

0xbadc0ffee: I’m a teapot


Можно также передавать словарь, тогда в строке появляется возможность указывать имена переменных.

In [27]:
msg = 'I’m a teapot'
errno = 50159747054
s = '0x%(errno)x: %(msg)s'
print(s % {'errno': errno, 'msg': msg})

0xbadc0ffee: I’m a teapot


Спецификаторы формата способны решать самые разные задачи. О том какие бывают спецификаторы читайте в [документации](https://docs.python.org/3.9/library/string.html#formatstrings).

Метод "классического" форматирования строк на сегодняшний день уже устарел.

Следующий способ форматирования называется "современным". Он заключается в использовании метода ```format```. Появился этот метод в 3-ей версии Python. Этот метод существенно расширяет возможности форматирования и делает его более простым. 

In [28]:
msg = 'I’m a teapot'
errno = 50159747054

# простое позиционирвоание, аргументы вставляются 
# по порядку на мето фигурных скобок
print('{}: {}'.format(errno, msg))

# пощиционирование на основе индексов
print('{1}: {0}'.format(msg, errno))

# использование именованных аргументов и имен 
# переменнных внутри фигурных скобок 
# (порядок следование не важен)
print('{errno}: {msg}'.format(errno=errno, msg=msg))

50159747054: I’m a teapot
50159747054: I’m a teapot
50159747054: I’m a teapot


Метод ```format``` использует спецификаторы формата с несколько измененным синтаксисом. Здесь используется префикс в виде двоеточия, спецификатор формата следует после него.

In [29]:
msg = 'I’m a teapot'
errno = 50159747054
print('{0:#x}: {1}'.format(errno, msg))

0xbadc0ffee: I’m a teapot


Как уже упоминалось, функционал форматирования строк стал в разы мощнее благодаря введению этого метода. Например, можно использовать вложенные фигурные скобки.

В качестве примера приведена таблица чисел в разных системах счисления.

In [30]:
for i in range(7, 17):
    for base in 'dXob':
        print('{0:{1}{2}}'.format(i, 7, base), end=' ')
    print()

      7       7       7     111 
      8       8      10    1000 
      9       9      11    1001 
     10       A      12    1010 
     11       B      13    1011 
     12       C      14    1100 
     13       D      15    1101 
     14       E      16    1110 
     15       F      17    1111 
     16      10      20   10000 


На сегодняшний день метод "современного" форматирования тоже можно считать устаревшим. Его рекомендуется использовать в случаях работы с интерпретатором, чья версия меньше 3.6. Начиная с версии 3.6 в Python появился "суперсовременный" метод форматирования строк. Его называют ```f```-строки или интерполяцией строковых литералов.

```f```-строки создаются путем использования префикса ```f``` или ```F``` перед строкой. ```f```-строки можно комбинировать с "сырыми" строками, указывая префиксы ```fr``` или ```FR```. 

In [31]:
errno = 50159747054
s = f'{errno}'
print(s)

50159747054


```f```-строки используют фигурные скобки, внутри которых может находиться любой выражение, начиная от обращения к переменной, заканчивая вычислениями. ```f```-строки несколько отличаются от ```str.format()```. Выражения внутри фигурных скобок ```f```-строк имеют полный доступ к локальным и глобальным переменным и вычисляются в процессе выполнения. Это означает, что они завяся от контекста в котором находятся. Если выражение внутри фигурных скобок невозможно вычислить, возникнет исключение. ```str.format()``` в этом смысле отличается. Шаблон можно создать в любой момент, а осуществить подстановку - во время вызова метода ```format```.

In [32]:
a, b = 2, 21
print(f'a * b = {a * b}')

a * b = 42


Эти конструкции очень удобно использовать для отладки программ. Например, конструкцию выше можно упростить, указав знак ```=``` после выражения внутри фигурных скобок.

In [33]:
a, b = 2, 21
print(f'{a * b = }')

a * b = 42


Под капотом интерполяция строковых литералов преобразует строки в серию констант и выражений. После чего они объединяются, формируя окончательное представление строки. Одним из существенных плюсов этих строк, помимо удобства, является их скорость. Это одни из самых быстрых строк в Python.

In [34]:
msg = 'I’m a teapot'
errno = 50159747054
s = f'{errno:#x}: {msg}'
print(s)

0xbadc0ffee: I’m a teapot


In [35]:
number = 3234512922

# кастомизация числа
print(f'{number:_}')
print(f'{number:,}')

3_234_512_922
3,234,512,922


Печать таблицы чисел в разных системах счисления можно переписать, используя ```f```-строки.

In [36]:
for i in range(7, 17):
    for base in 'dXob':
        print(f'{i:7{base}}', end=' ')
    print()

      7       7       7     111 
      8       8      10    1000 
      9       9      11    1001 
     10       A      12    1010 
     11       B      13    1011 
     12       C      14    1100 
     13       D      15    1101 
     14       E      16    1110 
     15       F      17    1111 
     16      10      20   10000 


Еще один пример использования форматирования строк - это преобразования в другие системы счисления.

In [37]:
def to_binary(number, bits):
    # преобразования чисел в двоичную систему
    # и заполнение незначащими нулями до заданной длины
    return f'{number:0{bits}b}'

print(to_binary(352, 10))
print(to_binary(153, 16))

0101100000
0000000010011001


Рассмотренные ```f```-строки могут вносить уязвимости в программу. Например, через них можно получать доступ к произвольным переменным в программе.

In [38]:
SECRET_KEY = '2fgDfw5Hj9N'

def foo():
    pass

user_input = '{obj.__globals__[SECRET_KEY]}'
user_input.format(obj=foo)  # уязвимость

'2fgDfw5Hj9N'

Дополнительным методом форматирования строк в Python используются шаблонные строки. Этот инструмент менее гибкий и мощный по сравнению с предыдущими вариантами. Одним из минусов такого подхода является отсутствие поддержки спецификаторов формата, что добавляет работы.

Создание шаблонов происходит с помощью специального класса ```Template```, который находится в модуле ```string```

In [39]:
from string import Template

msg = 'I’m a teapot'
errno = 50159747054

# создание шаблона, для обозначения перменных 
# используется знак $ и имя переменной
t = Template('$errno: $msg')

# подстановка значений с помощью метода substitute
print(t.substitute(errno=hex(errno), msg=msg))

0xbadc0ffee: I’m a teapot


За счет простоты шаблонных строк они являются более безопасными. Их можно использовать при обработке строк, сгенерированных пользователями. Во всех остальных случаях рекомендуется использовать ```f```-строки.

## Способы итерирования по строкам

Для обхода строк можно использовать цикл ```for```. Первый вариант - самый простой. Используется, когда необходимо только перебрать всю строку.

In [40]:
for s in 'abc':
    print(s)

a
b
c


В некоторых случаях нужно не просто итерироваться по коллекции, но и знать индекс текущего элемента. Эту задачу можно решить двумя способами. Первый заключается в использовании ```range```, о нем мы поговорим позднее. В этом варианте итерирование происходит по индексам строки, поэтому в теле цикла необходимо отдельно получать символ строки по его индексу.

In [41]:
letters = 'abc'
for i in range(len(letters)):
    print(f'letters[{i}] = {letters[i]}')

letters[0] = a
letters[1] = b
letters[2] = c


Более правильным способом итерирования по строке в случае, если нужно одновременно использовать элемент коллекции и его индекс, будет использование функции ```enumerate```. Здесь необходимо указывать сразу две переменные после ключевого слова ```for```, в первой будет находиться индекс, а во второй - элемент.

In [42]:
letters = 'abc'
for i, s in enumerate(letters):
    print(f'letters[{i}] = {s}')

letters[0] = a
letters[1] = b
letters[2] = c


# Модуль ```string```

Стандартная библиотека Python довольно обширна. Она включает в себя множество дополнительных модулей, покрывающих широкий круг задач. Модуль ```string``` один из них. Он обеспечивает приятные дополнения при работе со строками. 

In [43]:
import string

# разные строковые константы
print(f'Латинские буквы: {string.ascii_letters}')
print(f'Латинские буквы в нижнем регистре: {string.ascii_lowercase}')
print(f'Латинские буквы в верхнем регистре: {string.ascii_uppercase}')
print(f'Цифры: {string.digits}')
print(f'Знаки пунктуации {string.punctuation}')

Латинские буквы: abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
Латинские буквы в нижнем регистре: abcdefghijklmnopqrstuvwxyz
Латинские буквы в верхнем регистре: ABCDEFGHIJKLMNOPQRSTUVWXYZ
Цифры: 0123456789
Знаки пунктуации !"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


Это не все константы, предоставляемые модулем ```string```. Кроме констант он предоставляет возможность реализовать свой собственный метод форматирования строк.

## Полезные сслыки

1. [Документация по структурам данных](https://docs.python.org/3/tutorial/datastructures.html)
2. [Документация по модулю ```string```](https://docs.python.org/3.9/library/string.html)
3. [Сравнение методов форматирования строк](https://shultais.education/blog/python-f-strings)
4. [О безопасности методов форматирования строк](https://lucumr.pocoo.org/2016/12/29/careful-with-str-format/)
5. [73 примера использования ```f```-строк](https://miguendes.me/73-examples-to-help-you-master-pythons-f-strings)