# Работа со строками

Строки в Python - упорядоченные последовательности символов, используемые для хранения и представления текстовой информации.

В Python, начиная с версии 3, все строки являются юникодом.

Строки явлются неизменяемым типом.

## Литералы строк

Строки заключают в двойные или одинарные кавычки. Между ними нет разницы, причина наличия двух вариантов в том, чтобы позволить вставлять в литералы строк символы кавычек или апострофов, не используя экранирование.

In [1]:
s = 'your"s'
print(s)
s = "your's"
print(s)

your"s
your's


Тройные апострофы или кавычки можно использовать для записи многострочных блоков текста. Внутри такой строки возможно присутствие кавычек и апострофов, главное, чтобы не было трех кавычек подряд.

In [2]:
s = '''Это очень большая
строка, 'многострочный'
блок текста'''
print(s)

Это очень большая
строка, 'многострочный'
блок текста


### Экранированные последовательности - служебные символы

`\` - экранирование следующего символа\
`\n` - Новая строка\
`\a` - Сигнал BIOS\
`\b` - Backspace\
`\r` - Возврат каретки\
`\t` - Горизонтальная табуляция\
`\v` - Вертикальная табуляция\
`\uhhhh` - 16-битовый символ Юникода в 16-ричном представлении\
`\xhh` - 16-ричное значение символа\
`\ooo` - 8-ричное значение символа\
`\0` - Символ Null (не является признаком конца строки)

In [3]:
print('aa\nbb')
print('aa\bbb')
print('aa\tbb')
print('\u00A9')
print('\154')

aa
bb
aabb
aa	bb
\u00A9
l


### "Сырые" строки

Если перед открывающей кавычкой стоит символ 'r' (в любом регистре), то механизм экранирования отключается.

Но, несмотря на назначение, "сырая" строка не может заканчиваться символом обратного слэша.

In [4]:
s = r'C:\newt.txt'
print(s)

# Если нужен \ в конце строки:

s = r'\n\n\\'[:-1]
print(s)
s = r'\n\n' + '\\'
print(s)
s = '\\n\\n\\'
print(s)

C:\newt.txt
\n\n\
\n\n\
\n\n\


### Форматирование строк

Существует несколько более удобных способов форматирования строк, чем простая конкатенация.

#### Оператор `%`

In [None]:
# Подстановка одного оператора
name = 'Vasya'
print('Hello, %s!' % name)

# А если несколько, то значением будет являться кортеж со строками подстановки:
print('%d %s, %d %s' % (6, 'bananas', 10, 'lemons'))

Спецификаторы преобразования записываются в следующем порядке:

1. %.
2. Ключ (опционально), определяет, какой аргумент из значения будет подставляться.
3. Флаги преобразования.
4. Минимальная ширина поля. Если *, значение берётся из кортежа.
5. Точность, начинается с '.', затем - желаемая точность.
6. Модификатор длины (опционально).
7. Тип.

Возможные типы представлены в таблице ниже:

|Тип|Значение|
|---|:---|
|`%d`, `%i`, `%u`|Десятичное число|
|`%o`|Число в восьмеричной системе счисления|
|`%x`|Число в шестнадцатеричной системе счисления (буквы в нижнем регистре)|
|`%X`|Число в шестнадцатеричной системе счисления (буквы в верхнем регистре)|
|`%e`|Число с плавающей точкой с экспонентой (экспонента в нижнем регистре)|
|`%E`|Число с плавающей точкой с экспонентой (экспонента в верхнем регистре)|
|`%f`, `%F`|Число с плавающей точкой (обычный формат)|
|`%g`|Число с плавающей точкой. с экспонентой (экспонента в нижнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`%G`|Число с плавающей точкой. с экспонентой (экспонента в верхнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`%r`|Строка (литерал python)|
|`%s`|Строка (как обычно воспринимается пользователем)|
|`%%`|Знак `%`|

Флаги преобразования:

|Флаг|Значение|
|---|:---|
|`#`|Значение будет использовать альтернативную форму|
|`0`|Свободное место будет заполнено нулями|
|`-`|Свободное место будет заполнено пробелами справа|
|` ` (пробел)|Свободное место будет заполнено пробелами справа|
|`+`|Свободное место будет заполнено пробелами слева|

In [None]:
print ('%(language)s has %(number)03d quote types.' % {"language": "Python", "number": 2})

print('%.2s' % 'Hello!')
print('%.*s' % (2, 'Hello!'))
print('%-10d' % 25)
print('%+10f' % 25)
print('+25.000000')
print('%+10s' % 'Hello')

#### Метод **format**

In [None]:
name = 'Vasya'
print('Hello, {}!'.format(name))

print('{0}, {1}, {2}'.format('a', 'b', 'c'))
print('{}, {}, {}'.format('a', 'b', 'c'))
print('{2}, {1}, {0}'.format('a', 'b', 'c'))
print('{2}, {1}, {0}'.format(*'abc'))

print('Coordinates: {latitude}, {longitude}'.format(latitude='37.24N', longitude='-115.81W'))

coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
print('Coordinates: {latitude}, {longitude}'.format(**coord))

Синтаксис метода format:

|||
|---|---|
|поле замены |`"{" [имя поля] ["!" преобразование] [":" спецификация] "}"`|
|имя поля|`arg_name ("." имя атрибута \| "[" индекс "]")*`|
|преобразование|`"r" (внутреннее представление) \| "s" (человеческое представление)`|
|спецификация|см. таблица ниже|

Спецификация формата

|||
|---|:---|
|спецификация|`[[fill]align][sign][#][0][width][,][.precision][type]`|
|заполнитель|символ кроме `{` или `}`|
|выравнивание|"<" \| ">" \| "=" \| "^"|
|знак|"+" \| "-" \| " "|
|ширина|integer|
|точность|integer|
|тип|"b" \| "c" \| "d" \| "e" \| "E" \| "f" \| "F" \| "g" \| "G" \| "n" \| "o" \| "s" \| "x" \| "X" \| "%"|

Выравнивание производится при помощи символа-заполнителя. Доступны следующие варианты выравнивания:

|Флаг|Значение|
|---|:---|
|`<`|Символы-заполнители будут справа (выравнивание объекта по левому краю) (по умолчанию)|
|`>`|выравнивание объекта по правому краю|
|`=`|Заполнитель будет после знака, но перед цифрами. Работает только с числовыми типами|
|`^`|Выравнивание по центру|

Опция "знак" используется только для чисел и может принимать следующие значения:

|Флаг|Значение|
|---|:---|
|`+`|Знак должен быть использован для всех чисел|
|`-`|'-' для отрицательных, ничего для положительных|
|'Пробел'|'-' для отрицательных, пробел для положительных|

Поле "тип" может принимать следующие значения:

|Тип|Значение|
|---|:---|
|`d`, `i`, `u`|Десятичное число|
|`o`|Число в восьмеричной системе счисления|
|`x`|Число в шестнадцатеричной системе счисления (буквы в нижнем регистре)|
|`X`|Число в шестнадцатеричной системе счисления (буквы в верхнем регистре)|
|`e`|Число с плавающей точкой с экспонентой (экспонента в нижнем регистре)|
|`E`|Число с плавающей точкой с экспонентой (экспонента в верхнем регистре)|
|`f`, `F`|Число с плавающей точкой (обычный формат)|
|`g`|Число с плавающей точкой. с экспонентой (экспонента в нижнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`G`|Число с плавающей точкой. с экспонентой (экспонента в верхнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`c`|Символ (строка из одного символа или число - код символа)|
|`s`|Строка|
|`%`|Число умножается на 100, отображается число с плавающей точкой, а за ним знак %|



In [5]:
# Несколько примеров

print("int: {0:d};  hex: {0:x};  oct: {0:o};  bin: {0:b}".format(42))

points = 19.5
total = 22
print('Correct answers: {:.2%}'.format(points/total))

print('{:^30}'.format('centered'))
print('{:*^30}'.format('centered'))

int: 42;  hex: 2a;  oct: 52;  bin: 101010
Correct answers: 88.64%
           centered           
***********centered***********


#### F-строки

С версии Python 3.6 появился новый способ: f-строки. F-строки предоставляют способ встраивания выражений внутри строковых литералов с минимальным синтаксисом. Стоит обратить внимание на то, что f-строка является выражением, которое оценивается по мере выполнения, а не постоянным значением. 

В исходном коде Python f-строки является литеральной строкой с префиксом f, которая содержит выражения внутри скобок. Выражения заменяются их значением.

In [6]:
name = "Eric Idle"
age = 74
profession = "comedian"
affiliation = "Monty Python"

# Переменные 
print(f"Hello, {name}. You are {age}.")
print(F"Hello, {name}. You are {age}.")

# Произвольные выражения
print(f"{2 * 37}")

# Вызов функций
print(f"{name.lower()} is funny.")

# Многострочные f-strings
message = (
    f"Hi {name}. "
    f"You are a {profession}. "
    f"You were in {affiliation}."
)
 
print(message)

SyntaxError: invalid syntax (<ipython-input-6-15d1f28f0198>, line 7)

In [None]:
# После двоеточия в f-строках можно указывать те же значения, что и при использовании format:

oct1, oct2, oct3, oct4 = [10, 1, 1, 1]
print(f'''
  IP address:
  {oct1:<8} {oct2:<8} {oct3:<8} {oct4:<8}
  {oct1:08b} {oct2:08b} {oct3:08b} {oct4:08b}''')

## Функции и методы работы со строками

### Базовые методы

In [None]:
# Конкатенация (сложение)
s1 = 'abc'
s2 = 'def'
s = s1 + s2
print(s)

# Дублирование (умножение)
print(s*3)

# Длина строки
print(len(s))

# Доступ по индексу (нумерация идет с 0!)
# Отрицательный индекс означает, что счет будет вестись с конца
print(s[0])
print(s[3])
print(s[-1])


Так как строки являются неизменяемым типом, все функции и методы будут создавать новый объект.

Попытка изменить один символ при помощи доступа по индексу приведет к ошибке:

In [None]:
# Неправильно
s = 'abcdef'
s[2] = 'Z'

In [None]:
# Правильно
s = 'abcdef'
s = s[:2] + 'Z' + s[3:]
print(s)

### Срез

Срез возвращает подстроку.

Оператор извлечения среза: `[Start:Stop]`. Start – начало среза, а Stop – окончание;

Символ с номером Stop в срез не входит. По умолчанию первый индекс равен 0, а второй - длине строки.

In [None]:
s = 'abcdef'

print('3:5 ', s[3:5])
print('2:-2', s[2:-2])
print(' :4 ', s[:4])
print('1:  ', s[1:])
print(' :  ', s[:])

Кроме того, можно задать шаг, с которым нужно извлекать срез: `[Start:Stop:Step]`.

Отрицательное значение шага будет означать, что строка будет пройдена в обратном направлении.

In [None]:
s = 'abcdef'

print(' : :-1', s[::-1])
print('3:5:-1', s[3:5:-1])
print('5:3:-1', s[5:3:-1])
print('1: : 2', s[1::2])

### Прочие функции

|Функция|Назначение|
|---|:---|
|`S.find(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер первого вхождения или -1|
|`S.rfind(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер последнего вхождения или -1|
|`S.index(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер первого вхождения или вызывает ValueError|
|`S.rindex(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер последнего вхождения или вызывает ValueError|
|`S.replace(шаблон, замена)`|Замена шаблона|
|`S.split(символ)`|Разбиение строки по разделителю|
|`S.isdigit()`|Состоит ли строка из цифр|
|`S.isalpha()`|Состоит ли строка из букв|
|`S.isalnum()`|Состоит ли строка из цифр или букв|
|`S.islower()`|Состоит ли строка из символов в нижнем регистре|
|`S.isupper()`|Состоит ли строка из символов в верхнем регистре|
|`S.isspace()`|Состоит ли строка из неотображаемых символов (пробел, символ перевода страницы (`\f`), "новая строка" (`\n`), "перевод каретки" (`\r`), "горизонтальная табуляция" (`\t`) и "вертикальная табуляция" (`\v`))|
|`S.istitle()`|Начинаются ли слова в строке с заглавной буквы|
|`S.upper()`|Преобразование строки к верхнему регистру|
|`S.lower()`|Преобразование строки к нижнему регистру|
|`S.startswith(str)`|Начинается ли строка S с шаблона str|
|`S.endswith(str)`|Заканчивается ли строка S шаблоном str|
|`S.join(список)`|Сборка строки из списка с разделителем S|
|`ord(символ)`|Символ в его код ASCII|
|`chr(число)`|Код ASCII в символ|
|`S.capitalize()`|Переводит первый символ строки в верхний регистр, а все остальные в нижний|
|`S.center(width, [fill])`|Возвращает отцентрованную строку, по краям которой стоит символ fill (пробел по умолчанию)|
|`S.count(str, [start],[end])`|Возвращает количество непересекающихся вхождений подстроки в диапазоне [начало, конец] (0 и длина строки по умолчанию)|
|`S.expandtabs([tabsize])`|Возвращает копию строки, в которой все символы табуляции заменяются одним или несколькими пробелами, в зависимости от текущего столбца. Если TabSize не указан, размер табуляции полагается равным 8 пробелам|
|`S.lstrip([chars])`|Удаление пробельных символов в начале строки|
|`S.rstrip([chars])`|Удаление пробельных символов в конце строки|
|`S.strip([chars])`|Удаление пробельных символов в начале и в конце строки|
|`S.partition(шаблон)`|Возвращает кортеж, содержащий часть перед первым шаблоном, сам шаблон, и часть после шаблона. Если шаблон не найден, возвращается кортеж, содержащий саму строку, а затем две пустых строки|
|`S.rpartition(sep)`|Возвращает кортеж, содержащий часть перед последним шаблоном, сам шаблон, и часть после шаблона. Если шаблон не найден, возвращается кортеж, содержащий две пустых строки, а затем саму строку|
|`S.swapcase()`|Переводит символы нижнего регистра в верхний, а верхнего – в нижний|
|`S.title()`|Первую букву каждого слова переводит в верхний регистр, а все остальные в нижний|
|`S.zfill(width)`|Делает длину строки не меньшей width, по необходимости заполняя первые символы нулями|
|`S.ljust(width, fillchar=" ")`|Делает длину строки не меньшей width, по необходимости заполняя последние символы символом fillchar|
|`S.rjust(width, fillchar=" ")`|Делает длину строки не меньшей width, по необходимости заполняя первые символы символом fillchar|
|`S.format(*args, **kwargs)`|Форматирование строки|

In [None]:
# Некоторые примеры функций работы со строками

# Метод split

s = 'abcdef abcba aaa'
# Если разделитель не указан, выполняется разбитие по пробелу
print(s.split())
print(s.split('c'))
# в параметре maxsplit указывается максимальное количество разбиений. По умолчанию -1, то есть без ограничений
print(s.split('c', maxsplit=1))

In [None]:
# Метод join

# возвращается строка, полученная соединением элементов переданного списка в одну строку, 
# при этом между элементами списка вставляется разделитель, равный той строке, к которой применяется метод.

a = ['red', 'green', 'blue']
print(' '.join(a))
print(''.join(a))
print('***'.join(a))

In [None]:
# Метод replace
s = 'abcabcbabc'
print(s.replace('c','Z'))
# третьим параметром может стоять количество замен (от начала строки)
print(s.replace('c','Z', 2))

# Задачи для практики

- В строке заменить пробелы звездочкой. Если встречается подряд несколько пробелов, то их следует заменить одним знаком "*", пробелы в начале и конце строки удалить.
- В строке найти все слова, в которых содержится заданная подстрока, и вывести эти слова целиком.

In [13]:
s = ' it is   good day '
s = s.strip().split(' ')

tmp = []
for word in s:
    if word is not '':
        tmp.append(word)

s = '*'.join(tmp)
s

'it*is*good*day'

In [20]:
s = ' itt its   gooitd diaty '
s_copy = s
for index in range(len(s_copy)):
    it = s_copy.find('it', index)
    if it != -1:
        print(s_copy[it:it+2])
        s_copy = s_copy[it+2:]
        print(s_copy)

it
t its   gooitd diaty 
it
s   gooitd diaty 
it
d diaty 


In [21]:
s = ' itt its   gooitd diaty '
wh
tmp = s.partition('it')
print(tmp)

(' ', 'it', 't its   gooitd diaty ')
