# https://metanit.com/python/tutorial/6.5.php
# СТРОКИ
# РАБОТА СО СТРОКАМИ

Строка представляет последовательность символов в кодировке Unicode, заключенных в кавычки. Причем для определения строк Python позволяет использовать как одинарные, так и двойные кавычики:

In [1]:
message = "Hello World!"
print(message)  # Hello World!
 
name = 'Tom'
print(name)  # Tom

Hello World!
Tom


Если строка длинная, ее можно разбить на части и разместить их на разных строках кода. В этом случае вся строка заключается в круглые скобки, а ее отдельные части - в кавычки:

In [2]:
text = ("Laudate omnes gentes laudate "
        "Magnificat in secula ")
print(text)

Laudate omnes gentes laudate Magnificat in secula 


Если же мы хотим определить многострочный текст, то такой текст заключается в тройные двойные или одинарные кавычки:

In [3]:
'''
Это комментарий
'''
text = '''Laudate omnes gentes laudate
Magnificat in secula
Et anima mea laudate
Magnificat in secula 
'''
print(text)

Laudate omnes gentes laudate
Magnificat in secula
Et anima mea laudate
Magnificat in secula 



При использовани тройных одинарных кавычек не стоит путать их с комментариями: если текст в тройных одинарных кавычках присваивается переменной, то это строка, а не комментарий.
Управляющие последовательности в строке

Строка может содержать ряд специальных символов - управляющих последовательностей или escape-последовательности. Некоторые из них:

- `\`: позволяет добавить внутрь строки слеш
- `\'`: позволяет добавить внутрь строки одинарную кавычку

- `\"`: позволяет добавить внутрь строки двойную кавычку

- `\n`: осуществляет переход на новую строку

- `\t`: добавляет табуляцию (4 отступа)

Используем некоторые последовательностей:

In [4]:
text = "Message:\n\"Hello World\""
print(text)

Message:
"Hello World"


Консольный вывод программы:
```
Message:
"Hello World"
```
Хотя подобные последовательности могут нам помочь в некоторых делах, например, поместить в строку кавычку, сделать табуляцию, перенос на другую строку. Но они также могут и мешать. Например:

In [5]:
path = "C:\python\name.txt"
print(path)

C:\python
ame.txt


Здесь переменная path содержит некоторый путь к файлу. Однако внутри строки встречаются символы "\n", которые будут интерпретированы как управляющая последовательность. Так, мы получим следующий консольный вывод:

> C:\python ame.txt

Чтобы избежать подобной ситуации, перед строкой ставится символ r

path = r"C:\python\name.txt"
print(path)

### Вставка значений в строку

Python позволяет встравивать в строку значения других переменных. Для этого внутри строки переменные размещаются в фигурных скобках {}, а перед всей строкой ставится символ f:

In [6]:
userName = "Tom"
userAge = 37
user = f"name: {userName}  age: {userAge}"
print(user)   # name: Tom  age: 37

name: Tom  age: 37


В данном случае на место __{userName}__ будет вставляться значение переменной `userName`. Аналогично на вместо __{userAge}__ будет вставляться значение переменной `userAge`.
Обращение к символам строки

И мы можем обратиться к отдельным символам строки по индексу в квадратных скобках:

In [7]:
string = "hello world"
c0 = string[0]  # h
print(c0)
c6 = string[6]  # w
print(c6)
 
c11 = string[11]  # ошибка IndexError: string index out of range
print(c11)

h
w


IndexError: string index out of range

Индексация начинается с нуля, поэтому первый символ строки будет иметь индекс 0. А если мы попытаемся обратиться к индексу, которого нет в строке, то мы получим исключение IndexError. Например, в случае выше длина строки 11 символов, поэтому ее символы будут иметь индексы от 0 до 10.

Чтобы получить доступ к символам, начиная с конца строки, можно использовать отрицательные индексы. Так, индекс -1 будет представлять последний символ, а -2 - предпоследний символ и так далее:

In [8]:
string = "hello world"
c1 = string[-1]  # d
print(c1)
c5 = string[-5]  # w
print(c5)

d
w


При работе с символами следует учитывать, что строка - это неизменяемый (immutable) тип, поэтому если мы попробуем изменить какой-то отдельный символ строки, то мы получим ошибку, как в следующем случае:

In [9]:
string = "hello world"
string[1] = "R"

TypeError: 'str' object does not support item assignment

Мы можем только полностью переустановить значение строки, присвоив ей другое значение.
Перебор строки

С помощью цикла for можно перебрать все символы строки:

In [10]:
string = "hello world"
for char in string:
    print(char)
    

h
e
l
l
o
 
w
o
r
l
d


### Получение подстроки

При необходимости мы можем получить из строки не только отдельные символы, но и подстроку. Для этого используется следующий синтаксис:

- `string[:end]`: извлекается последовательность символов начиная с 0-го индекса по индекс end (не включая)

- `string[start:end]`: извлекается последовательность символов начиная с индекса start по индекс end (не включая)

- `string[start:end:step]`: извлекается последовательность символов начиная с индекса start по индекс end (не включая) через шаг step

Используем все варианты получения подстроки:

In [11]:
string = "hello world"
 
# с 0 до 5 индекса
sub_string1 = string[:5]
print(sub_string1)      # hello
 
# со 2 до 5 индекса
sub_string2 = string[2:5]
print(sub_string2)      # llo
 
# с 2 по 9 индекса через один символ
sub_string3 = string[2:9:2]
print(sub_string3)      # lowr

hello
llo
lowr


### Объединение строк

Одной из самых распространенных операций со строками является их объединение или конкатенация. Для объединения строк применяется операция сложения:

In [12]:
name = "Tom"
surname = "Smith"
fullname = name + " " + surname
print(fullname)  # Tom Smith

Tom Smith


С объединением двух строк все просто, но что, если нам надо сложить строку и число? В этом случае необходимо привести число к строке с помощью функции str():

In [13]:
name = "Tom"
age = 33
info = "Name: " + name + " Age: " + str(age)
print(info)  # Name: Tom Age: 33

Name: Tom Age: 33


### Повторение строки

Для повторения строки определенное количество раз применяется операция умножения:

In [14]:
print("a" * 3)  # aaa
print("he" * 4)  # hehehehe

aaa
hehehehe


### Сравнение строк

Особо следует сказать о сравнении строк. При сравнении строк принимается во внимание символы и их регистр. Так, цифровой символ условно меньше, чем любой алфавитный символ. Алфавитный символ в верхнем регистре условно меньше, чем алфавитные символы в нижнем регистре. Например:

In [None]:
str1 = "1a"
str2 = "aa"
str3 = "Aa"
print(str1 > str2)  # False, так как первый символ в str1 - цифра
print(str2 > str3)  # True, так как первый символ в str2 - в нижнем регистре

Поэтому строка "1a" условно меньше, чем строка "aa". Вначале сравнение идет по первому символу. Если начальные символы обоих строк представляют цифры, то меньшей считается меньшая цифра, например, "1a" меньше, чем "2a".

Если начальные символы представляют алфавитные символы в одном и том же регистре, то смотрят по алфавиту. Так, "aa" меньше, чем "ba", а "ba" меньше, чем "ca".

Если первые символы одинаковые, в расчет берутся вторые символы при их наличии.

Зависимость от регистра не всегда желательна, так как по сути мы имеем дело с одинаковыми строками. В этом случае перед сравнением мы можем привести обе строки к одному из регистров.

Функция __lower()__ приводит строку к нижнему регистру, а функция __upper()__ - к верхнему.

In [15]:
str1 = "Tom"
str2 = "tom"
print(str1 == str2)  # False - строки не равны
 
print(str1.lower() == str2.lower())  # True

False
True


### Функции __ord__ и __len__

Поскольку строка содержит символы Unicode, то с помощью функции __ord()__ мы можем получить числовое значение для символа в кодировке Unicode:

In [16]:
print(ord("A"))     # 65

65


Для получения длины строки можно использовать функцию __len()__:

In [17]:
string = "hello world"
length = len(string)
print(length)   # 11

11


### Поиск в строке

С помощью выражения term in string можно найти подстроку term в строке string. Если подстрока найдена, то выражение вернет значение True, иначе возвращается значение False:


In [18]:
string = "hello world"
exist = "hello" in string
print(exist)    # True
 
exist = "sword" in string
print(exist)    # False

True
False


# Основные методы строк
Рассмотрим основные методы строк, которые мы можем применить в приложениях:

- __isalpha()__: возвращает True, если строка состоит только из алфавитных символов

- __islower()__: возвращает True, если строка состоит только из символов в нижнем регистре

- __isupper()__: возвращает True, если все символы строки в верхнем регистре

- __isdigit()__: возвращает True, если все символы строки - цифры

- __isnumeric()__: возвращает True, если строка представляет собой число
- __startswith(str)__: возвращает True, если строка начинается с подстроки str

- __endswith(str)__: возвращает True, если строка заканчивается на подстроку str

- __lower()__: переводит строку в нижний регистр

- __upper()__: переводит строку в вехний регистр

- __title()__: начальные символы всех слов в строке переводятся в верхний регистр

- __capitalize()__: переводит в верхний регистр первую букву только самого первого слова строки

- __lstrip()__: удаляет начальные пробелы из строки

- __rstrip()__: удаляет конечные пробелы из строки

- __strip()__: удаляет начальные и конечные пробелы из строки

- __ljust(width)__: если длина строки меньше параметра width, то справа от строки добавляются пробелы, чтобы дополнить значение width, а сама строка выравнивается по левому краю

- __rjust(width)__: если длина строки меньше параметра width, то слева от строки добавляются пробелы, чтобы дополнить значение width, а сама строка выравнивается по правому краю

- __center(width)__: если длина строки меньше параметра width, то слева и справа от строки равномерно добавляются пробелы, чтобы дополнить значение width, а сама строка выравнивается по центру

- __find(str[, start [, end])__: возвращает индекс подстроки в строке. Если подстрока не найдена, возвращается число -1

- __replace(old, new[, num])__: заменяет в строке одну подстроку на другую

- __split([delimeter[, num]]__): разбивает строку на подстроки в зависимости от разделителя

- __partition(delimeter)__: разбивает строку по разделителю на три подстроки и возвращает кортеж из трех элементов - подстрока до разделителя, разделитель и подстрока после разделителя

- __join(strs)__: объединяет строки в одну строку, вставляя между ними определенный разделитель

Например, если мы ожидаем ввод с клавиатуры числа, то перед преобразованием введенной строки в число можно проверить, с помощью метода isnumeric() введено ли в действительности число, и если так, то выполнить операцию преобразования:

In [19]:
string = input("Введите число: ")
if string.isnumeric():
    number = int(string)
    print(number)

Введите число: 7
7


Проверка, начинается или оканчивается строка на определенную подстроку:

In [20]:
file_name = "hello.py"
 
starts_with_hello = file_name.startswith("hello")   # True
ends_with_exe = file_name.endswith("exe")           # False

Удаление пробелов в начале и в конце строки:

In [21]:
string = "   hello  world!  "
string = string.strip()
print(string)           # hello  world!

hello  world!


Дополнение строки пробелами и выравнивание:

In [22]:
print("iPhone 7:", "52000".rjust(10))
print("Huawei P10:", "36000".rjust(10))

iPhone 7:      52000
Huawei P10:      36000


Консольный вывод:
```
iPhone 7:      52000
Huawei P10:      36000
```
### Поиск в строке

Для поиска подстроки в строке в Python применяется метод find(), который возвращает индекс первого вхождения подстроки в строку и имеет три формы:

- __find(str)__: поиск подстроки str ведется с начала строки до ее конца

- __find(str, start)__: параметр start задает начальный индекс, с которого будет производиться поиск

- __find(str, start, end)__: параметр end задает конечный индекс, до которого будет идти поиск

Если подстрока не найдена, метод возвращает -1:

In [23]:
welcome = "Hello world! Goodbye world!"
index = welcome.find("wor")
print(index)       # 6
 
# поиск с 10-го индекса
index = welcome.find("wor",10)
print(index)       # 21
 
# поиск с 10 по 15 индекс
index = welcome.find("wor",10,15)
print(index)       # -1

6
21
-1


### Замена в строке

Для замены в строке одной подстроки на другую применяется метод replace():

- __replace(old, new)__: заменяет подстроку old на new

- __replace(old, new, num)__: параметр num указывает, сколько вхождений подстроки old надо заменить на new. По умолчанию num равно -1, что соответствует первой версии метода и приводит к замене всех вхождений.

In [24]:
phone = "+1-234-567-89-10"
 
# замена дефисов на пробел
edited_phone = phone.replace("-", " ")
print(edited_phone)     # +1 234 567 89 10
 
# удаление дефисов
edited_phone = phone.replace("-", "")
print(edited_phone)     # +12345678910
 
# замена только первого дефиса
edited_phone = phone.replace("-", "", 1)
print(edited_phone)     # +1234-567-89-10

+1 234 567 89 10
+12345678910
+1234-567-89-10


### Разделение на подстроки

Метод split() разбивает строку на список подстрок в зависимости от разделителя. В качестве разделителя может выступать любой символ или последовательность символов. Данный метод имеет следующие формы:

- __split()__: в качестве разделителя используется пробел

- __split(delimeter)__: в качестве разделителя используется delimeter

- __split(delimeter, num)__: параметр num указывает, сколько вхождений delimeter используется для разделения. Оставшаяся часть строки добавляется в список без разделения на подстроки

In [26]:
text = "Это был огромный, в два обхвата дуб, с обломанными ветвями и с обломанной корой"
# разделение по пробелам
splitted_text = text.split()
print(splitted_text)
print(splitted_text[6])     # дуб,
 
# разбиение по запятым
splitted_text = text.split(",")
print(splitted_text)
print(splitted_text[1])     # в два обхвата дуб
 
# разбиение по первым пяти пробелам
splitted_text = text.split(" ", 5)
print(splitted_text)        
print(splitted_text[5])     # обхвата дуб, с обломанными ветвями и с обломанной корой

['Это', 'был', 'огромный,', 'в', 'два', 'обхвата', 'дуб,', 'с', 'обломанными', 'ветвями', 'и', 'с', 'обломанной', 'корой']
дуб,
['Это был огромный', ' в два обхвата дуб', ' с обломанными ветвями и с обломанной корой']
 в два обхвата дуб
['Это', 'был', 'огромный,', 'в', 'два', 'обхвата дуб, с обломанными ветвями и с обломанной корой']
обхвата дуб, с обломанными ветвями и с обломанной корой


Еще один метод - __partition()__ разбивает строку по разделителю на три подстроки и возвращает кортеж из трех элементов - подстрока до разделителя, разделитель и подстрока после разделителя:

In [27]:
text = "Это был огромный, в два обхвата дуб, с обломанными ветвями и с обломанной корой"
text_parts = text.partition("дуб")
print(text_parts)
# ('Это был огромный, в два обхвата ', 'дуб', ', с обломанными ветвями и с обломанной корой')

('Это был огромный, в два обхвата ', 'дуб', ', с обломанными ветвями и с обломанной корой')


Если разделитель с строке не найден, то возвращается кортеж с одной строкой.
### Соединение строк

При рассмотрении простейших операций со строками было показано, как объединять строки с помощью операции сложения. Другую возможность для соединения строк представляет метод join(): он объединяет список строк. Причем текущая строка, у которой вызывается данный метод, используется в качестве разделителя:

In [28]:
words = ["Let", "me", "speak", "from", "my", "heart", "in", "English"]
 
# разделитель - пробел
sentence = " ".join(words)
print(sentence)  # Let me speak from my heart in English
 
# разделитель - вертикальная черта
sentence = " | ".join(words)
print(sentence)  # Let | me | speak | from | my | heart | in | English

Let me speak from my heart in English
Let | me | speak | from | my | heart | in | English


Вместо списка в метод join можно передать простую строку, тогда разделитель будет вставляться между символами этой строки:

In [29]:
word = "hello"
joined_word = "|".join(word)
print(joined_word)      # h|e|l|l|o

h|e|l|l|o


# Форматирование
В прошлых темах было рассмотрено, как можно вставлять в строку некоторые значения, предваряя строку символом f:

In [30]:
first_name="Tom"
text = f"Hello, {first_name}."
print(text)     # Hello, Tom.
 
name="Bob"
age=23
info = f"Name: {name}\t Age: {age}"
print(info)     # Name: Bob  Age: 23

Hello, Tom.
Name: Bob	 Age: 23


Но также в Python есть альтернативный способ, который предоставляет метод __format()__. Этот метод позволяет форматировать строку, вставляя в нее на место плейсхолдеров определенные значения.

Для вставки в строку используются специальные параметры, которые обрамляются фигурными скобками __({})__.
Именованные параметры

В форматируемой строке мы можем определять параметры, в методе __format()__ передавать для этих параметров значения:

In [31]:
text = "Hello, {first_name}.".format(first_name="Tom")
print(text)     # Hello, Tom.
 
info = "Name: {name}\t Age: {age}".format(name="Bob", age=23)
print(info)     # Name: Bob  Age: 23

Hello, Tom.
Name: Bob	 Age: 23


Причем в метод формат аргументы определяются с тем же именем, что и параметры в строке. Так, если параметр называется first_name, как в первом случае, то аргумент, которому присваивается значение, также называется first_name.
### Параметры по позиции

Мы также можем последовательно передавать в метод format набор аргументов, а в самой форматируемой строке вставлять эти аргумента, указывая в фигурных скобках их номер (нумерация начинается с нуля):

In [32]:
info = "Name: {0}\t Age: {1}".format("Bob", 23)
print(info)     # Name: Bob  Age: 23

Name: Bob	 Age: 23


При этом аргументы можно вставлять в строку множество раз:

In [33]:
text = "Hello, {0} {0} {0}.".format("Tom")

### Подстановки

Еще один способ передачи форматируемых значений в строку представляет использование подстановок или специальных плейсхолдеров, на место которых вставляются определенные значения. Для форматирования мы можем использовать следующие плейсхолдеры:
- __s__: для вставки строк
- __d__: для вставки целых чисел
- __f__: для вставки дробных чисел. Для этого типа также можно определить через точку количество знаков в дробной части.
- __%__: умножает значение на 100 и добавляет знак процента
- __e__: выводит число в экспоненциальной записи

Общий синтаксис плейсхолдера следующий:

> {:плейсхолдер}

В зависимости от плейсхолдера можно добавлять дополнительные параметры. Например, для форматирования чисел float можно использовать следующие параметры

> {:[количество_символов][запятая][.число_знаков_в_дробной_части] плейсхолдер}

При вызове метода format в него в качестве аргументов передаются значения, которые вставляются на место плейсхолдеров:

In [34]:
welcome = "Hello {:s}"
name = "Tom"
formatted_welcome = welcome.format(name)
print(formatted_welcome)        # Hello Tom

Hello Tom


В качестве результата метод __format()__ возвращает новую отформатированную строку.

### Форматирование целых чисел:

In [36]:
source = "{:d} символов"
number = 5
target = source.format(number)
print(target)   # 5 символов

5 символов


Если форматируемое число больше 999, то мы можем указать в определении плейсхолдера, что мы хотим использовать запятую в качестве разделителя разрядов:

In [37]:
source = "{:,d} символов"
print(source.format(5000))   # 5,000 символов

5,000 символов


Причем плейсхолдеры можно использовать и в f-строках:

In [38]:
n = 5000
source = f"{n:,d} символов"
print(source)   # 5,000 символов

5,000 символов


Для дробных чисел, то есть таких, которые представляют тип float, перед кодом плейсхолдера после точки можно указать, сколько знаков в дробной части мы хотим вывести:

In [39]:
number = 23.8589578
print("{:.2f}".format(number))   # 23.86
print("{:.3f}".format(number))   # 23.859
print("{:.4f}".format(number))   # 23.8590
print("{:,.2f}".format(10001.23554))    # 10,001.24

23.86
23.859
23.8590
10,001.24


Еще один параметр позволяет установить минимальную ширину форматируемого значения в символах:

In [40]:
print("{:10.2f}".format(23.8589578))    #     23.86
print("{:8d}".format(25))               #      25

     23.86
      25


Аналогичный пример с f-строками:

In [41]:
n1 = 23.8589578
print(f"{n1:10.2f}")    #     23.86
n2 = 25
print(f"{n2:8d}")       #      25

     23.86
      25


Для вывода процентов лучше воспользоваться кодом "%":

In [42]:
number = .12345
print("{:%}".format(number))        # 12.345000%
print("{:.0%}".format(number))      # 12%
print("{:.1%}".format(number))      # 12.3%
 
print(f"{number:%}")        # 12.345000%
print(f"{number:.0%}")      # 12%
print(f"{number:.1%}")      # 12.3%

12.345000%
12%
12.3%
12.345000%
12%
12.3%


Для вывода числа в экспоненциальной записи применяется плейсхолдер "e":

In [43]:
number = 12345.6789
print("{:e}".format(number))        # 1.234568e+04
print("{:.0e}".format(number))      # 1e+04
print("{:.1e}".format(number))      # 1.2e+04
 
print(f"{number:e}")        # 1.234568e+04
print(f"{number:.0e}")      # 1e+04
print(f"{number:.1e}")      # 1.2e+04

1.234568e+04
1e+04
1.2e+04
1.234568e+04
1e+04
1.2e+04


### Форматирование без метода format

Существует также еще один способ форматирования с помощью следующего синтаксиса:

> строка%(параметр1, параметр2,..параметрN)

То есть в начале идет строка, которая содержит те же плейсхолдеры, которые были рассмотрены выше (за исключением плейсхолдера %), после строки ставится знак процента %, а затем список значений, которые вставляются в строку. Фактически знак процента представляют операцию, в результате которой образуется новая строка:

In [44]:
info = "Имя: %s \t Возраст: %d" % ("Tom", 35)
print(info)   # Имя: Tom     Возраст: 35

Имя: Tom 	 Возраст: 35


Рядом с плейсхолдером указывается знак процента и в отличие от функции format здесь не требуются фигурные скобки.

Причем способы форматирования чисел здесь также применяются:

In [45]:
number = 23.8589578
print("%0.2f  - %e" % (number, number))   # 23.86  - 2.385896e+01

23.86  - 2.385896e+01
