# Работа со строками

Строки в Python - это неизменяемые коллекции, в которых содержатся текстовые символы. Однако, в отличие от многих других языков программирования, в питоне элемент строки - это не особый тип "символ", а так же строка, состоящая из одного элемента. Кодировка строк в Python 3 по умолчанию - [UTF-8](https://ru.wikipedia.org/wiki/UTF-8). Это означает, что нам в принципе не нужно думать о том, возможно ли в строке использовать кириллицу или нет. Ниже рассмотрим всё, что связано с формированием и использованием строк.

В этом разделе будет использоваться термин **литерал**: это слово обозначает некоторое значение, используемое посреди кода. Например, в выражении `if word == "abc":` строка `"abc"` будет являться литералом, поскольку не записана ни в какую переменную, но тем не менее влияет на логику исполнения программы.

## Способы создания строк

### Первый способ
Двойные или одинарные кавычки. Между ними нет разницы. 
Причина наличия двух вариантов в том, чтобы позволить вставлять в литералы строк символы кавычек или апострофов, не используя экранирование.

In [5]:
s = 'your"s'
print(s)
s = "your's"
print(s)

your"s
your's


### Второй способ

Тройные апострофы или кавычки можно использовать для записи многострочных блоков текста. Внутри такой строки возможно присутствие кавычек и апострофов, главное, чтобы не было трех кавычек подряд.

In [6]:
s = '''Это очень большая
строка, 'многострочный'
блок текста'''
print(s)

Это очень большая
строка, 'многострочный'
блок текста


### Третий способ

С помощью метода str(), так же можно создать строку. Например, конвертировать переменную другого типа.

In [1]:
id_int = 12345
id_str = str(id_int)
print(id_str)

12345


### Экранированные последовательности - служебные символы

`\` - экранирование следующего символа\
`\n` - Новая строка\
`\a` - Сигнал BIOS\
`\b` - Backspace\
`\r` - Возврат каретки\
`\t` - Горизонтальная табуляция\
`\v` - Вертикальная табуляция\
`\uhhhh` - 16-битовый символ Юникода в 16-ричном представлении\
`\xhh` - 16-ричное значение символа\
`\ooo` - 8-ричное значение символа\
`\0` - Символ Null (не является признаком конца строки)

In [15]:
print("Your code said \"It's an error\"")
print('''Your code said:\n- It's an error''')
print('my \bcode')
print("it's\t my code")
print('\u00A9')
print('\0')
print('\154')

Your code said "It's an error"
Your code said:
- It's an error
my code
it's	 my code
©
 
l


Такое правило работает для всех специальных симфолов. Используем экранирование дяже если нужно вывести обратный слеш.

In [11]:
print("\\")

\


Хоть последовательность \n состоит из двух символов, для интерпретатора — это один специальный символ.
Поэтому если нужно вывести \n как два отдельных символа, то можно добавить еще один \ в начале.

In [16]:
print('"\\n"')

"\n"


В Windows для перевода строк по умолчанию используется \r\n. Но \r хорошо работает только в Windows, поэтому использование комбинации вызывает проблемы при переносе в других системах, например Linux.

Комбинация \r\n имеет разную трактовку в зависимости от выбранной кодировки. Из-за этого в среде разработчиков принято всегда использовать \n без \r.

В таком случае перевод строки всегда трактуется одинаково и отлично работает в любой системе.

### "Сырые" строки

Если перед открывающей кавычкой стоит символ 'r' (в любом регистре), то механизм экранирования отключается.

Но, несмотря на назначение, "сырая" строка не может заканчиваться символом обратного слэша.

In [10]:
s = r'C:\newt.txt'
print(s)

# Если нужен \ в конце строки:

s = r'\n\n\\'[:-1]
print(s)
s = r'\n\n' + '\\'
print(s)
s = '\\n\\n\\'
print(s)

C:\newt.txt
\n\n\
\n\n\
\n\n\


## Функции и методы работы со строками
### Базовые методы

#### Индексация строк
Строки являются упорядоченными последовательностями символьных данных и могут быть проиндексированы. Выбрать отдельные символы в строке можно с помощью квадратных скобок [], указав в них нужные номера индексов.\
Индексация строк начинается с нуля: у первого символа индекс 0, следующего 1 и так далее. Индекс последнего символа в python — ‘‘длина строки минус один’’.
Индексы строк также могут быть указаны отрицательными числами. В этом случае индексирование начинается с конца строки: -1 относится к последнему символу, -2 к предпоследнему и так далее.

In [65]:
s = 'abc'[0]
print(s)
s = 'abc'[-1]
print(s)

5
 


IndexError: string index out of range

Попытка обращения по индексу большему чем len(s) - 1 или меньшему чем -len(s), приводит к ошибке IndexError:

In [67]:
s = ' abc '
print(len(s))
s = ' abc ' [-5]
print(s)
s = ' abc '
print(len(s))
s = ' abc ' [5]
print(s)

5
 
5


IndexError: string index out of range

#### Срезы строк
Срезы строк нужны, если необходимо вывести больше одного символа из строки. 

In [38]:
s = 'abc'[0:-1]
print(s)
s = 'abc'[:2]
print(s)
s = 'abc'[1:len(s)+1]
print(s)
s = 'abc'[1:]
print(s)

ab
ab
bc
bc


Если первый индекс в срезе больше или равен второму индексу, Python возвращает пустую строку. Это один не очевидный способ сгенерировать пустую строк

In [40]:
s = 'abc'[-1:-2]
print(s)
s = 'abc'[2:2]
print(s)





Существует еще один вариант синтаксиса среза, добавление дополнительного : и третьего индекса. Это означает шаг, который указывает, сколько символов следует пропустить после извлечения каждого символа в срезе.

In [41]:
s = 'python'[0:6:2]
print(s)

pto


В строке 'python' срез 0:6:2 начинается с первого символа и заканчивается последним символом (это вся строка),и каждый второй символ пропускается.\
Аналогично работает с отприцательными значениями символов и шага.

In [60]:
s = 'python'[-6:-2]
print(s)
s = 'python'[-6:-2:2]
print(s)
s = 'python'[-6::-2]
print(s)
s = 'python'[5:0:-2]
print(s)

pyth
pt
p
nhy


В приведенном выше примере, 5:0:-2 означает «начать с последнего символа и делать два шага назад, но не включая первый символ.”

In [63]:
# Общая парадигма для разворота (reverse) строки
s = 'python'[::-1]
print(s)

nohtyp


Когда вы идете назад, если первый и второй индексы пропущены, значения по умолчанию применяются так: первый индекс — конец строки, а второй индекс — начало.

Так как строки являются неизменяемым типом, все функции и методы будут создавать новый объект.

Попытка изменить один символ при помощи доступа по индексу приведет к ошибке:

In [70]:
# Неправильно
s = 'python'
s[1] = 'i'

TypeError: 'str' object does not support item assignment

In [71]:
# Правильно
s = 'python'
s = s[:1] + 'i' + s[2:]
print(s)

pithon


#### Конкатенация
Помимо квадратных скобок, мы использованили ' ' + ' '. Этот метод соединяет две строки и называется конкатенация.\
Склеивание строк всегда происходит в том же порядке, в котором записаны операнды. Левый операнд становится левой частью строки, а правый — правой.\
Строки можно склеивать, даже если их записали с разными кавычками.\
Пробел — это символ,такой же, как и другие. Поэтому важно не забывать о нем.

In [21]:
print('Помни ' + "о " + '''пробелах''')

Помни о пробелах


#### Дублирование (умножения строк)
Оператор умножения строк, * - это ещё один оператор, который можно использовать со строками.

In [24]:
s = 'abc'
print (2*s)
print (s*2)

abcabc
abcabc


### Форматирование строк

Иногда возникают ситуации, когда нужно создать строку, подставив в неё данные, полученные в процессе выполнения программы (пользовательский ввод, данные из файлов и т. д.). Подстановку данных можно сделать с помощью форматирования строк. Существует несколько более удобных способов форматирования строк, чем простая конкатенация.

#### Оператор `%`
Напомним, оператор в Python — это символ, который выполняет операцию над одним или несколькими операндами.
Операндом выступает переменная или значение, над которыми проводится операция.

In [22]:
# Подстановка одного значения
name = 'Vasya'
print('Hello, %s!' % name)

# А если несколько, то значением будет являться кортеж со строками подстановки:
print('%d %s, %d %s' % (6, 'bananas', 10, 'lemons'))

Hello, Vasya!
6 bananas, 10 lemons


Спецификаторы преобразования записываются в следующем порядке:

1. %.
2. Ключ (опционально), определяет, какой аргумент из значения будет подставляться.
3. Флаги преобразования.
4. Минимальная ширина поля. Если *, значение берётся из кортежа.
5. Точность, начинается с '.', затем - желаемая точность.
6. Модификатор длины (опционально).
7. Тип.

Возможные типы представлены в таблице ниже:

|Тип|Значение|
|---|:---|
|`%d`, `%i`, `%u`|Десятичное число|
|`%o`|Число в восьмеричной системе счисления|
|`%x`|Число в шестнадцатеричной системе счисления (буквы в нижнем регистре)|
|`%X`|Число в шестнадцатеричной системе счисления (буквы в верхнем регистре)|
|`%e`|Число с плавающей точкой с экспонентой (экспонента в нижнем регистре)|
|`%E`|Число с плавающей точкой с экспонентой (экспонента в верхнем регистре)|
|`%f`, `%F`|Число с плавающей точкой (обычный формат)|
|`%g`|Число с плавающей точкой. с экспонентой (экспонента в нижнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`%G`|Число с плавающей точкой. с экспонентой (экспонента в верхнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`%r`|Строка (литерал python)|
|`%s`|Строка (как обычно воспринимается пользователем)|
|`%%`|Знак `%`|

Флаги преобразования:

|Флаг|Значение|
|---|:---|
|`#`|Значение будет использовать альтернативную форму|
|`0`|Свободное место будет заполнено нулями|
|`-`|Свободное место будет заполнено пробелами справа|
|` ` (пробел)|Свободное место будет заполнено пробелами справа|
|`+`|Свободное место будет заполнено пробелами слева|

In [13]:
print ('%(language)s has %(number)03d quote types.' % {"language": "Python", "number": 2})

print('%.2s' % 'Hello!')
print('%.*s' % (2, 'Hello!'))
print('%-10d' % 25)
print('%+10f' % 25)
print('+25.000000')
print('%+10s' % 'Hello')

Python has 002 quote types.
He
He
25        
+25.000000
+25.000000
     Hello


#### Метод **format**
Метод format() принимает любое количество параметров и возвращает отформатированную строку.\
Параметры делятся на два вида:\
Позиционные аргументы — список параметров, доступ к которым можно получить по индексу параметра в фигурных скобках {индекс}. Например, {0}, {1}.
Параметры — ключевые слова — список параметров типа ключ=значение, доступ к которым можно получить с помощью ключа параметра в фигурных скобках {ключ}. Например, {latitude}, {longitude}.

In [14]:
name = 'Vasya'
print('Hello, {}!'.format(name))

print('{0}, {1}, {2}'.format('a', 'b', 'c'))
print('{}, {}, {}'.format('a', 'b', 'c'))
print('{2}, {1}, {0}'.format('a', 'b', 'c'))
print('{2}, {1}, {0}'.format(*'abc'))

print('Coordinates: {latitude}, {longitude}'.format(latitude='37.24N', longitude='-115.81W'))

coord = {'latitude': '37.24N', 'longitude': '-115.81W'}
print('Coordinates: {latitude}, {longitude}'.format(**coord))

Hello, Vasya!
a, b, c
a, b, c
c, b, a
c, b, a
Coordinates: 37.24N, -115.81W
Coordinates: 37.24N, -115.81W


Синтаксис метода format:

|||
|---|---|
|поле замены |`"{" [имя поля] ["!" преобразование] [":" спецификация] "}"`|
|имя поля|`arg_name ("." имя атрибута \| "[" индекс "]")*`|
|преобразование|`"r" (внутреннее представление) \| "s" (человеческое представление)`|
|спецификация|см. таблица ниже|

Спецификация формата

|||
|---|:---|
|спецификация|`[[fill]align][sign][#][0][width][,][.precision][type]`|
|заполнитель|символ кроме `{` или `}`|
|выравнивание|"<" \| ">" \| "=" \| "^"|
|знак|"+" \| "-" \| " "|
|ширина|integer|
|точность|integer|
|тип|"b" \| "c" \| "d" \| "e" \| "E" \| "f" \| "F" \| "g" \| "G" \| "n" \| "o" \| "s" \| "x" \| "X" \| "%"|

Выравнивание производится при помощи символа-заполнителя. Доступны следующие варианты выравнивания:

|Флаг|Значение|
|---|:---|
|`<`|Символы-заполнители будут справа (выравнивание объекта по левому краю) (по умолчанию)|
|`>`|выравнивание объекта по правому краю|
|`=`|Заполнитель будет после знака, но перед цифрами. Работает только с числовыми типами|
|`^`|Выравнивание по центру|

Опция "знак" используется только для чисел и может принимать следующие значения:

|Флаг|Значение|
|---|:---|
|`+`|Знак должен быть использован для всех чисел|
|`-`|'-' для отрицательных, ничего для положительных|
|'Пробел'|'-' для отрицательных, пробел для положительных|

Поле "тип" может принимать следующие значения:

|Тип|Значение|
|---|:---|
|`d`, `i`, `u`|Десятичное число|
|`o`|Число в восьмеричной системе счисления|
|`x`|Число в шестнадцатеричной системе счисления (буквы в нижнем регистре)|
|`X`|Число в шестнадцатеричной системе счисления (буквы в верхнем регистре)|
|`e`|Число с плавающей точкой с экспонентой (экспонента в нижнем регистре)|
|`E`|Число с плавающей точкой с экспонентой (экспонента в верхнем регистре)|
|`f`, `F`|Число с плавающей точкой (обычный формат)|
|`g`|Число с плавающей точкой. с экспонентой (экспонента в нижнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`G`|Число с плавающей точкой. с экспонентой (экспонента в верхнем регистре), если она меньше, чем -4 или точности, иначе обычный формат|
|`c`|Символ (строка из одного символа или число - код символа)|
|`s`|Строка|
|`%`|Число умножается на 100, отображается число с плавающей точкой, а за ним знак %|



In [72]:
# Несколько примеров

print("int: {0:d};  hex: {0:x};  oct: {0:o};  bin: {0:b}".format(42))

points = 19.5
total = 22
print('Correct answers: {:.2%}'.format(points/total))
print("{:0.3f}".format(points/total))
print("{:9.3f}".format(points/total))

print('{:^30}'.format('centered'))
print('{:*^30}'.format('centered'))

int: 42;  hex: 2a;  oct: 52;  bin: 101010
Correct answers: 88.64%
0.886
    0.886
           centered           
***********centered***********


## F-строки

С версии Python 3.6 появился новый способ пробрасывания значений в строку: f-строки. F-строки предоставляют способ встраивания выражений внутри строковых литералов с минимальным синтаксисом. Это значит, что внутри строки в момент ее создания можно исполнить какой-либо произвольный питоновский код или подставить значение переменной.

В исходном коде Python f-строки является литеральной строкой с префиксом f, которая содержит выражения внутри скобок. Выражения заменяются их значением.

In [16]:
name = "Eric Idle"
age = 74
profession = "comedian"
affiliation = "Monty Python"

# Переменные 
print(f"Hello, {name}. You are {age}.")
print(F"Hello, {name}. You are {age}.")

# Произвольные выражения
print(f"{2 * 37}")

# Вызов функций
print(f"{name.lower()} is funny.")

# Многострочные f-strings
message = (
    f"Hi {name}. "
    f"You are a {profession}. "
    f"You were in {affiliation}."
)
 
print(message)

Hello, Eric Idle. You are 74.
Hello, Eric Idle. You are 74.
74
eric idle is funny.
Hi Eric Idle. You are a comedian. You were in Monty Python.


In [17]:
# После двоеточия в f-строках можно указывать те же значения, что и при использовании format:

oct1, oct2, oct3, oct4 = [10, 1, 1, 1]
print(f'''
  IP address:
  {oct1:<8} {oct2:<8} {oct3:<8} {oct4:<8}
  {oct1:08b} {oct2:08b} {oct3:08b} {oct4:08b}''')


  IP address:
  10       1        1        1       
  00001010 00000001 00000001 00000001


## Прочие функции, определенные над строками

**Метод** - это функция, вызываемая для определенного объекта. В коде она пишется через точку после объекта: `объект.метод()`.

|Функция|Назначение|
|---|:---|
|`S.find(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер первого вхождения или -1|
|`S.rfind(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер последнего вхождения или -1|
|`S.index(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер первого вхождения или вызывает ValueError|
|`S.rindex(str, [start],[end])`|Поиск подстроки в строке. Возвращает номер последнего вхождения или вызывает ValueError|
|`S.replace(шаблон, замена)`|Замена шаблона|
|`S.split(символ)`|Разбиение строки по разделителю|
|`S.isdigit()`|Состоит ли строка из цифр|
|`S.isalpha()`|Состоит ли строка из букв|
|`S.isalnum()`|Состоит ли строка из цифр или букв|
|`S.islower()`|Состоит ли строка из символов в нижнем регистре|
|`S.isupper()`|Состоит ли строка из символов в верхнем регистре|
|`S.isspace()`|Состоит ли строка из неотображаемых символов (пробел, символ перевода страницы (`\f`), "новая строка" (`\n`), "перевод каретки" (`\r`), "горизонтальная табуляция" (`\t`) и "вертикальная табуляция" (`\v`))|
|`S.istitle()`|Начинаются ли слова в строке с заглавной буквы|
|`S.upper()`|Преобразование строки к верхнему регистру|
|`S.lower()`|Преобразование строки к нижнему регистру|
|`S.startswith(str)`|Начинается ли строка S с шаблона str|
|`S.endswith(str)`|Заканчивается ли строка S шаблоном str|
|`S.join(список)`|Сборка строки из списка с разделителем S|
|`ord(символ)`|Символ в его код ASCII|
|`chr(число)`|Код ASCII в символ|
|`S.capitalize()`|Переводит первый символ строки в верхний регистр, а все остальные в нижний|
|`S.center(width, [fill])`|Возвращает отцентрованную строку, по краям которой стоит символ fill (пробел по умолчанию)|
|`S.count(str, [start],[end])`|Возвращает количество непересекающихся вхождений подстроки в диапазоне [начало, конец] (0 и длина строки по умолчанию)|
|`S.expandtabs([tabsize])`|Возвращает копию строки, в которой все символы табуляции заменяются одним или несколькими пробелами, в зависимости от текущего столбца. Если TabSize не указан, размер табуляции полагается равным 8 пробелам|
|`S.lstrip([chars])`|Удаление пробельных символов в начале строки|
|`S.rstrip([chars])`|Удаление пробельных символов в конце строки|
|`S.strip([chars])`|Удаление пробельных символов в начале и в конце строки|
|`S.partition(шаблон)`|Возвращает кортеж, содержащий часть перед первым шаблоном, сам шаблон, и часть после шаблона. Если шаблон не найден, возвращается кортеж, содержащий саму строку, а затем две пустых строки|
|`S.rpartition(sep)`|Возвращает кортеж, содержащий часть перед последним шаблоном, сам шаблон, и часть после шаблона. Если шаблон не найден, возвращается кортеж, содержащий две пустых строки, а затем саму строку|
|`S.swapcase()`|Переводит символы нижнего регистра в верхний, а верхнего – в нижний|
|`S.title()`|Первую букву каждого слова переводит в верхний регистр, а все остальные в нижний|
|`S.zfill(width)`|Делает длину строки не меньшей width, по необходимости заполняя первые символы нулями|
|`S.ljust(width, fillchar=" ")`|Делает длину строки не меньшей width, по необходимости заполняя последние символы символом fillchar|
|`S.rjust(width, fillchar=" ")`|Делает длину строки не меньшей width, по необходимости заполняя первые символы символом fillchar|
|`S.format(*args, **kwargs)`|Форматирование строки|

Приведем некоторые часто используемые при работе со строками функции. Метод `split` разделяет строку на подстроки по заданному символу (по умолчанию - пробелы и табуляции) и возвращает список подстрок.

In [23]:
# Метод split

s = 'abcdef abcba aaa'
# Если разделитель не указан, выполняется разбитие по пробелу
print(s.split())
print(s.split('c'))
# в параметре maxsplit указывается максимальное количество разбиений. По умолчанию -1, то есть без ограничений
print(s.split('c', maxsplit=1))

['abcdef', 'abcba', 'aaa']
['ab', 'def ab', 'ba aaa']
['ab', 'def abcba aaa']


Метод `join` наоборот превращает список строк в одну строку, вставляя между подстроками заданную строку.

In [24]:
# Метод join

# возвращается строка, полученная соединением элементов переданного списка в одну строку, 
# при этом между элементами списка вставляется разделитель, равный той строке, к которой применяется метод.

a = ['red', 'green', 'blue']
print(' '.join(a))
print(''.join(a))
print('***'.join(a))

red green blue
redgreenblue
red***green***blue


Метод `replace` заменяет подстроку на заданную строку в строке.

In [26]:
# Метод replace
s = 'abcabcbabc'
print(s.replace('ca','Z'))
# третьим параметром может стоять количество замен (от начала строки)
print(s.replace('c','Z', 2))

abZbcbabc
abZabZbabc


## Задание

С клавиатуры вводится строка. В строке заменить пробелы звездочкой. Если встречается подряд несколько пробелов, то их следует заменить одним знаком "*". Пробелы в начале и конце строки удалить. Проверить правильность выполнения задания можно в контесте в задаче Строки. Замена символов.

In [1]:
string = input().split()
string2 = "*".join(string)
print(string2)

asds*sdf*sdf*df*s*fds*fd*sd*fs


## Задание

С клавиатуры вводится строка, а затем - подстрока. В строке найти все слова, в которых содержится заданная подстрока, и вывести эти слова целиком. Если слова повторяются, вывести все повторения. Проверить правильность решения можно в контесте в задаче Строки. Поиск подстрок.

In [4]:
s = input().split()
word2 = input()
for word in s:
    if word2.lower() in word.lower(): print(word)

Пять
Шесть
Семь
