# Глава 7. Строки

**Строки** - упорядоченные последовательности символов, используемые для хранения и представления текстовой информации

В Python, в отличие от C, отсутсвует специальный тип для представления единственного символа - вместо этого односимвольные строки.

`S = r'\temp\spam'`  - неформатированные строки

`S = b'spam'` - строки байтов (начиная с 3.0)

`S1 + S2` - конкатенация

`S * 3` - повторение

`S.isdigit()` - проверка содержимого

`S.encode('latin-1')` - кодирование строк юникода

Различие между текстовыми и  двоичными данными в  языке Python обеспечивается за счет поддержки различных типов данных:

> В Python 3 существует 3 строковых типа:
* `str` - для представления текста юникода
* `bytes` - для представления двоичных данных (включая кодированный текст)
* `bytearray` - изменяемый вариант `bytes`

## Литералы строк

* Строки в апострофах: `'spa"m'`
* Строки в кавычках: `"spa'm"`
* Строки в тройных кавычках: `'''... spam ...''', """... spam ..."""`
* Экранированные последовательности: `"s\tp\na\0m"`
* Неформатированные строки: `r"C:\new\test.spm"`
* Строки байтов в версии 3.0 (глава 36): `b'sp\x01am'`

Кавычки и апострофы, окружающие строки, являются взаимозаменяемыми

Python автоматически объединяет последовательности строковых литералов внутри выражения, хотя нет ничего сложного в том, чтобы добавить оператор `+` между литералами и вызвать операцию конкатенации явно

In [1]:
title = "Meaning " 'of' " Life"  # неявная конкатенация
title

'Meaning of Life'

Если добавить запятые, то будет получен кортеж, а не строка

In [2]:
"Meaning ", 'of', " Life"

('Meaning ', 'of', ' Life')

### Экранированные последовательности

In [3]:
s = 'a\nb\tc'
print(s)
print(len(s))

a
b	c
5


Последовательность `\n` (и другие экранированные последовательности) образует единственный символ  – байт, содержащий двоичное значение кода символа новой строки в  используемом наборе символов

**`len` - возвращает фактическое число байтов в строке**, независимо от того, как она отображается на экране

Строка из пяти символов, содержащая два нулевых байта

In [4]:
s = 'a\0b\0c'
s

'a\x00b\x00c'

In [5]:
len(s)

5

> интерпретатор Python отображает непечатаемые символы в шестнадцатеричном представлении, независимо от того, в каком виде
они были указаны внутри литерала

### Неформатированные строки подавляют экранирование

`r'somestring'`

In [6]:
path = 'C:\new\text\dat'
print(path, len(path), sep='\n')

C:
ew	ext\dat
13


In [7]:
path = r'C:\new\text\dat'
print(path, len(path), sep='\n')

C:\new\text\dat
15


In [8]:
path  # выводится с экранированием

'C:\\new\\text\\dat'

Конструкция `r'...\'` не является допустимым строковым литералом  – неформатированная строка не может заканчиваться нечетным количеством символов обратного слэша.

Если необходимо, чтобы неформатированная строка заканчивалась символом
обратного слеша, можно:
* добавить два символа и затем удалить второй из них (`r'1\nb\tc\\'[:-1]`)
* добавить один символ вручную `(r'1\nb\tc' + '\\')`
* или использовать обычный синтаксис строковых литералов и дублировать все символы обратного слеша (`'1\\nb\\tc\\'`)

### Тройные кавычки, многострочные блоки текста

Три подряд кавычки или апострофа - многострочный блок текста

In [9]:
mantra = '''Always look
on the bright
side of life'''

mantra

'Always look\non the bright\nside of life'

In [10]:
print(mantra)

Always look
on the bright
side of life


## Строки в действии

### Базовые операции

In [11]:
# Конкатенация
'abc' + 'def'

'abcdef'

In [12]:
# Повторение
'Ni!' * 4

'Ni!Ni!Ni!Ni!'

### Доступ по индексам и извлечение подстроки

In [13]:
S = 'spam'
S[-2]

'a'

In [14]:
S[::-1]

'maps'

**Операция среза возвращает новый объект**, поэтому с помощью `[:]` можно получить полную поверхностную копию объекта последовательности - полезно с изменяемыми объектами (списки, например)

**Третий индекс** - необязательный - используется как шаг

In [15]:
S = 'abcdefghijklmnop'
S[1:10:2]

'bdfhj'

In [16]:
S[::2]

'acegikmo'

In [17]:
S[7:1:-2]  # элемент с индексом 1 не войдет, т.к. вторая граница не включается

'hfd'

**slice** - объект среза

In [18]:
'spam'[1:3] # Синтаксис извлечения среза

'pa'

In [19]:
'spam'[slice(1, 3)] # используется объект среза

'pa'

In [20]:
'spam'[::-1]

'maps'

In [21]:
'spam'[slice(None, None, -1)]

'maps'

### Инструменты преобразования строк

Функция `int` преобразует строку в  число, а  функция `str` преобразует число в строковое представление (по сути – в то, что выводится на экран).

Функция `repr` (и прежний ее эквивалент, обратные апострофы, который был удален в Python 3.0) также преобразует объект в строковое представление, но возвращает объект в  виде строки программного кода, который можно выполнить, чтобы воссоздать объект. Если объект – строка, то инструкция `print` выведет кавычки, окружающие строку

In [22]:
print(str('spam'), repr('spam'))

spam 'spam'


Вы не сможете смешивать строковые и числовые типы в таких операторах, как `+`, но вы можете вручную выполнить необходимые преобразования операндов перед выполнением операции

In [23]:
S = '42'
I = 1

int(S) + I

43

#### Преобразование кодов символов

Имеется также возможность выполнить преобразование одиночного символа
в его целочисленный код ASCII, для чего нужно передать этот символ функции **`ord`**  – она возвращает фактическое числовое значение соответствующего байта в памяти.

Обратное преобразование выполняется с помощью функции **`chr`**, она получает целочисленный код ASCII и преобразует его в соответствующий символ

In [24]:
ord('s')

115

In [25]:
chr(115)

's'

### Изменение строк

Строки - неизменяемые последовательности

In [26]:
s = 'abcde'
s[0] = 'z'

TypeError: 'str' object does not support item assignment

Чтобы изменить строку, необходимо создать новую строку с помощью таких операций, как конкатенация и извлечение подстроки, а затем, если необходимо, присвоить результать первоначальному имени

In [27]:
s = 'z' + s[1:]
s

'zbcde'

Можно собирать строку с помощью форматирования

In [28]:
'That is %d %s bird!' % (1, 'dead')  # Выражение форматирования

'That is 1 dead bird!'

In [29]:
'That is {0} {1} bird!'.format(1, 'dead')  # Метод форматирования

'That is 1 dead bird!'

## Строковые методы

**Методы** - функции, связанные с определенными объектами. Формально они являются атрибутами, присоединенными к объектам, которые ссылаются на функции.

Методы являются специфичными для типов объектов, но некоторые методы могут относиться к разыми типам (например, `count`), но при этом они по своей функциональности в большей степени зависят от типа объекта, чем другие инструменты.

Функции  – это пакеты программного кода, а  вызовы методов объединяют в себе выполнение двух операций (извлечение атрибута и вызов функции).
* Извлечение атрибута

Выражение вида **`object.attribute`** означает: «извлечь значение атрибута `attribute` из объекта `object`».
* Вызов функции

Выражение вида **`function(arguments)`** означает: «вызвать программный код функции `function`, передав ему ноль или более объектов-аргументов `arguments`, разделенных запятыми, и вернуть значение функции».

Объединение этих двух действий позволяет вызвать метод объекта. Выражение вызова метода `object.method(arguments)` вычисляется слева направо, то есть интерпретатор сначала извлекает метод объекта, а затем вызывает его, передавая ему входные аргументы

### Примеры использования строковых методов

**`replace`** - замена подстроки

In [30]:
S = 'spammymm'
S = S.replace('mm', 'xx')
S

'spaxxyxx'

In [31]:
S = 'spammymm'
S = S.replace('mm', 'xx', 1)
S

'spaxxymm'

**`find`** - поиск подстроки

In [32]:
S = 'xxxxSPAMxxxxSPAMxxxx'
where = S.find('SPAM')
where

4

In [33]:
S = S[:where] + 'EGGS' + S[(where+4):]
S

'xxxxEGGSxxxxSPAMxxxx'

Если в сценарии производится множество изменений длинных строк, вы можете повысить производительность сценария, преобразовав строку в объект, который допускает внесение изменений

In [34]:
S = 'spammy'
L = list(S)
L

['s', 'p', 'a', 'm', 'm', 'y']

In [35]:
L[1] = 'r'
''.join(L)

'srammy'

### Примеры методов строк: разбор текста

In [36]:
line = 'aaa bbb ccc'
col1 = line[0:3]
col1

'aaa'

In [37]:
cols = line.split()
cols

['aaa', 'bbb', 'ccc']

In [38]:
'b' in line

True

In [39]:
line.endswith('d')

False

In [40]:
line.isalpha()

False

In [41]:
line.isalnum()

False

Строковые методы раньше были в отдельном модуле **`string`**, теперь там дополнительные средства для работы со строками

In [42]:
import string
dir(string)

['Formatter',
 'Template',
 '_ChainMap',
 '_TemplateMetaclass',
 '__all__',
 '__builtins__',
 '__cached__',
 '__doc__',
 '__file__',
 '__loader__',
 '__name__',
 '__package__',
 '__spec__',
 '_re',
 '_string',
 'ascii_letters',
 'ascii_lowercase',
 'ascii_uppercase',
 'capwords',
 'digits',
 'hexdigits',
 'octdigits',
 'printable',
 'punctuation',
 'whitespace']

In [43]:
string.digits

'0123456789'

In [44]:
string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

## Выражения форматирования строк

Операции форматирования строк позволяют выполнять подстановку в строки
значений различных типов за одно действие

Операции форматирования строк могут выполняться двумя способами:
* выражения форматирования строк
* методы форматирования строк

**`%`** - двухместный оператор форматирования при работе со строками

Чтобы отформатировать строку, требуется:
1.	 Слева от оператора `%` указать строку формата, содержащую один или более спецификаторов формата, каждый из которых начинается с символа `%` (например, `%d`).
2.	 Справа от оператора `%` указать объект (или **объекты, в виде кортежа**), значение которого должно быть подставлено на место спецификатора (или спецификаторов) в левой части выражения.

In [45]:
'That is %d %s bird!' % (1, 'dead')

'That is 1 dead bird!'

In [46]:
# справа от оператора должен быть кортеж
'That is %d bird!' % 1, 'dead'

('That is 1 bird!', 'dead')

In [47]:
'%e -- %s%% -- %s' % (42, 3.14159, [1, 2, 3])

'4.200000e+01 -- 3.14159% -- [1, 2, 3]'

В общем виде синтаксис использования спецификатора формата
выглядит следующим образом:

>`%[(name)][flags][width][.precision]code`

In [48]:
x = 1234
'integers: ...%d...%-6d...%06d' % (x, x, x)

'integers: ...1234...1234  ...001234'

In [49]:
x = 1.23456789
'%e | %f | %g' % (x, x, x)

'1.234568e+00 | 1.234568 | 1.23457'

In [50]:
'%-6.2f | %05.2f | %+06.1f' % (x, x, x)

'1.23   | 01.23 | +001.2'

### Форматирование строк из словаря

In [51]:
'%(n)d %(x)s' % {'n':1, 'x':'spam'}

'1 spam'

In [55]:
# Шаблон с замещаемыми спецификаторами формата
reply = '''
Greetings...
Hello %(name)s!
Your age squared is %(age)s
'''

values = {'name': 'Bob', 'age': 40}
print(reply % values)


Greetings...
Hello Bob!
Your age squared is 40



> **`vars()`** - встроенная функция, которая возвращает словарь, содержащий все переменные, существующие на момент ее вызова

In [56]:
food = 'spam'
age =  40

'%(age)d %(food)s' % vars()

'40 spam'

## Метод форматирования строк

В двух словах, новый метод `format` объектов строк, использует строку, относительно которой он вызывается, как шаблон и  принимает произвольное количество аргументов, представляющих значения для подстановки.

Фигурные скобки внутри строки шаблона используются для обозначения замещаемых спецификаторов и  их параметров, которые могут определять порядковые номера позиционных аргументов (например, `{1}`) или имена именованных аргументов (например, `{food}`).

In [57]:
# Порядковые номера позиционных аргументов
template = '{0}, {1} and {2}'
template.format('spam', 'ham', 'eggs')

'spam, ham and eggs'

In [58]:
# Имена именованных аргументов
template = '{motto}, {pork} and {food}'
template.format(motto='spam', pork='ham', food='eggs')

'spam, ham and eggs'

In [59]:
# Оба варианта
template = '{motto}, {0} and {food}'
template.format('ham', motto='spam', food=[1, 2])

'spam, ham and [1, 2]'

### Использование ключей, атрибутов и смещений

В строках формата **допускается ссылаться на имена атрибутов объектов и  ключи словарей**

In [60]:
import sys

'My {1[spam]} runs {0.platform}'.format(sys, {'spam': 'computer'})

'My computer runs linux'

In [61]:
'My {config[spam]} runs {sys.platform}'.format(sys=sys,
                                               config={'spam': 'computer'})

'My computer runs linux'

В квадратных скобках в строках формата можно также указывать смещение
от начала списка (или любой другой последовательности), **но при этом допускается использовать только положительные смещения, также `slice` нельзя использовать внутри формата**

In [62]:
somelist = list('SPAM')
somelist

['S', 'P', 'A', 'M']

In [63]:
'first={lst[0]}, third={lst[2]}'.format(lst=somelist)

'first=S, third=A'

In [64]:
parts = somelist[0], somelist[-1], somelist[1:3]
'first={0}, last={1}, middle={2}'.format(*parts)

"first=S, last=M, middle=['P', 'A']"

### Специальные приемы форматирования

Формальный синтаксис спецификатора формата:

`{fieldname!conversionflag:formatspec}`

Поля спецификатора имеют следующий смысл:
* `fieldname`  – порядковый номер или имя именованного аргумента, за которым может следовать необязательное имя «.name» атрибута или индекс «[index]» элемента.
* `conversionflag`  – может быть `r`, `s` или `a`, которые определяют применение к значению встроенной функции `repr`, `str` или `ascii` соответственно.
* `formatspec`  – определяет способ представления значения, описывает такие характеристики представления, как ширина поля вывода, выравнивание, дополнение, количество знаков после десятичной точки и так далее, и завершается необязательным кодом типа значения.

Поле `formatspec`, следующее за двоеточием, в  общем виде имеет следующий синтаксис (квадратные скобки окружают необязательные компоненты и  не имеют отношения к синтаксису поля):

`[[fill]align][sign][#][0][width][.precision][typecode]`

In [65]:
'{0:7} = {1:10}'.format('spam', 123.4567)

'spam    =   123.4567'

In [66]:
'{0:>10} = {1:<10}'.format('spam', 123.4567)

'      spam = 123.4567  '

In [67]:
'{0.platform:>10} = {1[item]:<10}'.format(sys, dict(item='laptop'))

'     linux = laptop    '

In [68]:
'{0:e}, {1:.3e}, {2:g}'.format(3.14159, 3.14159, 3.14159)

'3.141590e+00, 3.142e+00, 3.14159'

In [69]:
'{0:f}, {1:.2f}, {2:06.2f}'.format(3.14159, 3.14159, 3.14159)

'3.141590, 3.14, 003.14'

Метод `format` поддерживает также возможность вывода чисел в шестнадцатеричном, восьмеричном и  двоичном представлениях

In [70]:
'{0:X}, {1:o}, {2:b}'.format(255, 255, 255)

'FF, 377, 11111111'

Параметры форматирования можно указывать непосредственно в строке формата или динамически извлекать из списка аргументов, с помощью синтаксиса вложенных конструкций

In [71]:
'{0:.2f}'.format(1 / 3.0)

'0.33'

In [72]:
# Значение извлекается из списка аргументов
'{0:.{1}f}'.format(1 / 3.0, 4) 

'0.3333'

In [73]:
'{0:.{1}f}'.format(1 / 3.0, 6) 

'0.333333'

**`format()`** - встроенная функция, которая может использоваться для форматирования одиночных значений

In [74]:
format(1.2345, '.2f')

'1.23'

### Дополнительные возможности

Метод `format` поддерживает дополнительные возможности, недоступные при
использовании оператора `%`, такие как отображение чисел в двоичном формате и (появившаяся в Python 3.1) возможность разделения групп разрядов.

Кроме того, метод `format` позволяет напрямую обращаться к ключам словарей и атрибутам объектов в строке формата. Однако, как мы уже видели, при использовании оператора `%` того же эффекта можно добиться другими способами

In [75]:
'{0:b}'.format((2 ** 16) -1)

'1111111111111111'

In [76]:
'%b' % ((2 ** 16) -1)

ValueError: unsupported format character 'b' (0x62) at index 1

In [77]:
bin((2 ** 16) -1)

'0b1111111111111111'

In [78]:
'%s' % bin((2 ** 16) -1)[2:]

'1111111111111111'

### Неявные ссылки на значения

Автоматическая нумерация параметров

In [79]:
'{:f}, {:.2f}, {:06.2f}'.format(3.14159, 3.14159, 3.14159)

'3.141590, 3.14, 003.14'

## Общие категории типов

Операции над встроенными типами работают одинаково в  случае применения их к  типам одной категории, поэтому нам необходимо лишь определить эти категории

### Типы одной категории имеют общий набор операций

Формально в языке Python существует **три категории типов (и операций)**:

* **Числа** (целые, вещественные, с фиксированной точностью, рациональные и др.)

Поддерживают операции сложения, умножения и так далее

* **Последовательности** (строки, списки, кортежи)

Поддерживают операции индексации, извлечения среза, конкатенации
и так далее.

* **Отображения (словари)**

Поддерживают операцию индексации по ключу и так далее.

**Множества** образуют отдельную категорию типов (они не отображают ключи в значения и не являются упорядоченными последовательностями)

### Изменяемые типы допускают непосредственное изменение

Основные базовые типы данных в языке Python делятся на следующие категории:

* **Неизменяемые (числа, строки, кортежи, фиксированные множества)**

Объекты неизменяемых типов не поддерживают возможность непосредственного изменения значения объекта, однако вы всегда сможете создавать новые объекты с  помощью выражений и  присваивать их требуемым переменным.

* **Изменяемые (списки, словари, множества)**

Объекты изменяемых типов, наоборот, всегда могут изменяться непосредственно, с  помощью операций, которые не создают новые объекты. Изменяемые объекты могут быть скопированы, но они поддерживают и возможность непосредственного изменения.