# Типы данных: Строки

## Определение строк

На прошлой [лекции](../lesson3/conspect.md) мы начали изучать последовательность: обсудили определение последовательности в Python, обсудили методы, общие для последовательностей, а также рассмотрели таких представителей последовательностей, как список (tuple) и (list). Сегодня мы закончим изучение последовательностей рассмотрением строк. 

Строки - еще один встроенные тип данных. Строки - это неизменяемые последовательности, состоящие из символов, и используемые для предоставления текстовой информации. Строки предоставляют широкий функционал и большой набор методов, именно поэтому целесообразно обсуждать их отдельно.

Начнем с определения строк в коде. В самом простом случае строки - это последовательность символов (в частности пустая), заключенная в одинарные или двойные кавычки:

In [1]:
string1 = 'this is string literal'
string2 = "this is string literal too"

Поддержка нескольких вариантов создания строкового литерала позволяет использовать неиспользованные( :) ) кавычки в самом литерале. Ну, или если вы убежденный фанат одного типа кавычек, вы все равно можете использовать из в самом литерале с помощью экранирования:

In [2]:
string1 = "I'm iron man"
string2 = 'I\'m iron man'

print(string1, string2, sep='\n')
print(string1 == string2)

I'm iron man
I'm iron man
True


*Интересный факт*: более предпочтительным считается использование одинарных кавычек. Однако, на работе вы все равно будете использовать те кавычки, которые прописаны в конфигурации форматтера.

Вы также можете создавать многострочные строки (как бы странно это не звучало):

In [3]:
string1 = "this is long multi string string\n\
and this line is its part"

string2 = (
    "this is long multi string string\n"
    "and this line is its part"
)

print(string1, string2, sep='\n\n')

this is long multi string string
and this line is its part

this is long multi string string
and this line is its part


Однако, данный подход к создание многострочных строк не приветствуется. Обычно для этих целей используются тройные кавычки:

In [4]:
string = """\
This is very very long line
Or not
But I just wanted to demonstrate \
this kind of strings
"""

print(string)

This is very very long line
Or not
But I just wanted to demonstrate this kind of strings



Вы часто можете увидеть подобные литералы в качестве многострочных комментариев:

```Python
def my_func(arg1, *args, kwarg1='word'):
    """
    This function do usefull staff
    
    :arg1: is a number or None
    :kwarg1: is a string, equals 'word' by default

    :return: None
    """
    ...
```

Необходимо обратить внимание на следующее обстоятельство: при создании многострочного строкового литерала с использованием тройных кавычек или с использованием реверс слеша, написание комментариев допустимо только после закрытия кавычек.

Также обратите внимание, что в этом варианте у нас нет необходимости в добавлении специального символа перехода но новую строку '\n', переход осуществляется автоматически при переходе на новую строку. Однако, если мы хотим перейти на новую физическую строку, но при этом продолжить писать на предыдущей физической строке, мы вынуждены использовать реверс-слеш.

Помимо символа '\n' существует ряд символов специального назначения (в англоязычной литературе они называются *escape sequences*). Вот некоторые из них, которые вы будете использовать чаще всего:

|Символ|Описание|
|--|--|
|\\<newline>|продолжение написания на текуще физической строке, несмотря на фактическое наличие символа перехода на новую строку|
|\\\\ |реверс слеш|
|\\'|одинарная кавычка|
|\\"|двойная кавычка|
|\\n|переход на новую строку|
|\\t|таб|

В обычных строках использование реверс-слеша без экранирования невозможно. Однако вы можете создать так называемую *сырую* строку, в которой все специальные символы теряют свое значение:

In [5]:
raw_string = r'C:\Users\User\Desktop\teaching'

print(raw_string)

C:\Users\User\Desktop\teaching


Создание сырых строк аналогично созданию обычных строк, единственное - необходимо написать букву r или R перед самим литералом. Обычно данный тип строк используется для определения путей к файлам. Однако, подобная практика не рекомендуется. Для данной цели используйте или модуль pathlib, или модуль os.path. 

## Строки как последовательности

### Конкатенация и повторение

Как упоминалось ранее, строки являются последовательностями. Из этого следует, что мы можем конкатенировать и повторять строки:

In [6]:
addition = " add this part"
string = input('Enter some string: ')

repeated = string * 5
concatenated = string + addition

print(repeated, concatenated, sep='\n')

abobaabobaabobaabobaaboba
aboba add this part


Т.к. строки неизменяемы, любые операции со строками приводят к созданию нового объекта строки. Даже такие операции, как составное присваивание, не изменяют текущий объект, а создают новый и перепривязывают старую ссылку к новому объекту:

In [7]:
string = 'this is old string '
id_old = id(string)

string *= 5
id_new = id(string)

print(id_old == id_new)

False


### Оператор in

Также из того факта, что строки - последовательности, следует, что мы можем использовать оператор `in`, для проверки вхождения того или инога символа в строку:

In [8]:
string = 'what a wonderful world'
print('a' in string)

True


Но, что гораздо интереснее, с помощью оператора `in` мы также можем не просто проверить наличие одного символа в строке, но и наличие целой подстроки: 

In [9]:
string = 'what a wonderful world'
print('world' in string)

True


### Индексирование

Ну и наконец, поскольку строки - последовательности, мы можем их индексировать. Два важных момента: первое - поскольку строки неизменяемы, мы не можем изменять как значения отдельно взятых символов, так и значения подстрок; второе - индексирование строк аналогично индексированию списков и кортежей, т.е. мы можем использовать положительные и отрицательные целые числа и срезы. 

In [10]:
string = 'what a wonderful world'

print(
    string[1],
    string[-1],
    string[::-1],
    string[2:8],
    sep='\n',
    end='\n\n'
)

try:
    string[0] = 'W'

except TypeError:
    print(
        'String is immutable type so you '
        "can't change its value"
    )

h
d
dlrow lufrednow a tahw
at a w

String is immutable type so you can't change its value


## Методы строк

Стоки обладают внушительным количетсвом методов. Описание всех этих методов превратилось бы в пересказывание документации, поэтому в данном разделе будут описаны часто используемые методы с основными сценариями их применения.

Поскольку невозможно все время держать в голове сигнатуры всех методов, стоит отдельно упомянуть о встроенной функции `help()`, которая принимает на вход объект Python и возвращает его док-стринг. Большинство встроенных функций и методов встроенных типов данных имеют док-стринг, а потому вы можете спокойно использовать эту функцию для освежения в памяти сигнатур функций и их логики:

In [11]:
help(id)

Help on built-in function id in module builtins:

id(obj, /)
    Return the identity of an object.
    
    This is guaranteed to be unique among simultaneously existing objects.
    (CPython uses the object's memory address.)



### Манипуляции с регистром

К методам, осуществляющим манипуляции с регистром относятся следующие методы: `upper()`, `lower()`, `title()` (еще к этой группе методов относятся методы `swapcase()` и `capitalize()`, но я не встречался с их использованием в продуктовом коде, поэтому изучение данных методов оставляю читателю). Давайте сначала разберемся с функционированием данных методов, а затем рассмотрим практический пример и мотивируем их изучение.

**upper()**:

In [12]:
help(str.upper)

Help on method_descriptor:

upper(self, /)
    Return a copy of the string converted to uppercase.



In [13]:
name_surname = 'Gvido Van Rossum'
name_surname.upper()

'GVIDO VAN ROSSUM'

**lower()**:

In [14]:
help(str.lower)

Help on method_descriptor:

lower(self, /)
    Return a copy of the string converted to lowercase.



In [15]:
name_surname = 'Gvido Van Rossum'
name_surname.lower()

'gvido van rossum'

**title**:

In [53]:
help(str.title)

Help on method_descriptor:

title(self, /)
    Return a version of the string where each word is titlecased.
    
    More specifically, words start with uppercased characters and all remaining
    cased characters have lower case.



In [54]:
name_surname = 'gvido van rossum'
name_surname_up = name_surname.upper()

print(
    name_surname.title(),
    name_surname_up.title(),
    sep='\n'
)

Gvido Van Rossum
Gvido Van Rossum


**Пример на upper/lower**:

Наверное, самое очевидное использование методов манипуляции с кейсом - сортировка слов в лексикографическом порядке. Поскольку при сортировки учитываются именно ASCII коды символов, попытка отсортировать список слов в разном регистре приведет к очевидному, но некорректному с точки зрения языка результату:

In [18]:
words = ['CIA', 'border', 'Alabama', 'apple', 'Appel', 'zero', 'two', 'Paris']
words.sort()

print(words)

['Alabama', 'Appel', 'CIA', 'Paris', 'apple', 'border', 'two', 'zero']


Мы все-таки хотели бы видеть, чтобы, начинающиеся с одинаковых последовательностей символов, были близко друг к другу, причем имена собственные встречались раньше. Чтобы исправить данное недоразумение, мы можем перевести все слова в один регистр и только потом отсортировать:

In [19]:
words = ['CIA', 'border', 'Alabama', 'apple', 'Appel', 'zero', 'two', 'Paris']
words.sort(key=str.upper)

print(words)

['Alabama', 'Appel', 'apple', 'border', 'CIA', 'Paris', 'two', 'zero']


Теперь мы имеем корректный с точки зрения языка результат.

**Сферический пример в вакууме**:

Предположим у нас есть некоторый сервис. Прежде чем пользоваться нашим сервисом, пользователи должны зарегистироваться: предоставить информацию о почте, придумать имя пользователя и пароль. Мы сохраняем данную информацию в базе данных. Причем, мы не даем зарегистироваться пользователю, если пользователь придумал неуникальный никнейм или предоставил уже имеющийся в базе почтовый адрес. С точки зрения нашей системы никнеймы: `BaNaNa`, `Banana` и `banana` - одинаковые. Как быть? А вот как: 

In [20]:
from dataclasses import dataclass, asdict
from typing import Union

In [21]:
@dataclass
class UserInfo:
    username: str
    email: str
    password: str

    def get_dict(self):
        return {key: val for key, val in asdict(self).items()}


class DataBase:
    _name: str
    _users: list[UserInfo] = []
    _nicks_unique: list[str] = []
    _emails_unique: list[str] = []

    def __init__(self, db_name: str) -> None:
        self._name = db_name

    def add_users(self, new_users: list[UserInfo]) -> None:
        for user in new_users:
            self._add_user(user)

    def _add_user(self, user: UserInfo) -> None:
        if user.username.lower() in self._nicks_unique:
            raise RuntimeError(
                'username should be unique; '
                f'user with nick: {user.username.lower()} '
                'is already exist'
            )
        
        if user.email in self._emails_unique:
            raise RuntimeError(
                'email should be unique; '
                f'user with email: {user.email} is already exist'
            )
        
        self._nicks_unique.append(user.username.lower())
        self._emails_unique.append(user.email)
        self._users.append(user)

    @property
    def table(self) -> list[dict]:
        return [user.get_dict() for user in self._users]

In [22]:
def print_database(database: DataBase) -> None:
    for user_dict in database.table:
        print(user_dict)

In [23]:
data_base = DataBase('clients')
print_database(data_base)

new_users = [
    UserInfo(
        username='avshugan',
        email='avshugan.email@mail.ru',
        password='12345678'
    ),
    UserInfo(
        username='Ampiro',
        email='ampiro.email@gmail.com',
        password='qwerty228'
    )
]
data_base.add_users(new_users)
print_database(data_base)

{'username': 'avshugan', 'email': 'avshugan.email@mail.ru', 'password': '12345678'}
{'username': 'Ampiro', 'email': 'ampiro.email@gmail.com', 'password': 'qwerty228'}


In [24]:
new_users = [
    UserInfo(
        username='AMPIRO',
        email='AMPIRO.email@yandex.ru',
        password='notqw15erTY'
    )
]

data_base.add_users(new_users)

RuntimeError: username should be unique; user with nick: ampiro is already exist

### Проверки символов

К данным методом отсносятся следующие: `isalnum()`, `isalpha()`, `isdigit()`, `isspace()`, `istitle()` (на самостоятельное изучение предоставлены методы: `isupper()`, `islower()`, `isnumeric()`, `isprintable()`, `isidentifier()`, `isdecimal()`). Данные методы позволяют упростить проверку строки на удовлетворение всем условиям. 

**isalnum()**:

In [28]:
help(str.isalnum)

Help on method_descriptor:

isalnum(self, /)
    Return True if the string is an alpha-numeric string, False otherwise.
    
    A string is alpha-numeric if all characters in the string are alpha-numeric and
    there is at least one character in the string.



In [29]:
string = 'ab123'
print(string.isalnum())

string = 'ab,!^'
print(string.isalnum())

string = 'hello world'
print(string.isalnum())

True
False
False


**isalpha()**:

In [30]:
help(str.isalpha)

Help on method_descriptor:

isalpha(self, /)
    Return True if the string is an alphabetic string, False otherwise.
    
    A string is alphabetic if all characters in the string are alphabetic and there
    is at least one character in the string.



In [34]:
string = 'Hello'
print(string.isalpha())

string = '123'
print(string.isalpha())

string = 'Hello, world!'
print(string.isalpha())

True
False
False


**isdigit()**:

In [35]:
help(str.isdigit)

Help on method_descriptor:

isdigit(self, /)
    Return True if the string is a digit string, False otherwise.
    
    A string is a digit string if all characters in the string are digits and there
    is at least one character in the string.



In [46]:
string = 'Hello'
print(string.isdigit())

string = '123'
print(string.isdigit())

string = '-123'
print(string.isdigit())

string = 'Hello, world!'
print(string.isdigit())

False
True
False
False


**isspace()**:

In [47]:
help(str.isspace)

Help on method_descriptor:

isspace(self, /)
    Return True if the string is a whitespace string, False otherwise.
    
    A string is whitespace if all characters in the string are whitespace and there
    is at least one character in the string.



In [49]:
string = '\n\t    '
print(string.isspace())

string = '    aboba    '
print(string.isspace())

True
False


**istitle()**:

In [50]:
help(str.istitle)

Help on method_descriptor:

istitle(self, /)
    Return True if the string is a title-cased string, False otherwise.
    
    In a title-cased string, upper- and title-case characters may only
    follow uncased characters and lowercase characters only cased ones.



In [55]:
string = 'Bjarne Stroustrup'
print(string.istitle())

string = 'bjarne Stroustrup'
print(string.istitle())

string = 'Bjarne stroustrup'
print(string.istitle())

string = 'bjarne stroustrup'
print(string.istitle())

True
False
False
False


**Пример использования:**

В данном примере я позволю себе сослаться на сферический пример в вакууме из предыдущего пункта. Просто теперь, используя данные методы, мы можем наложить более строгие ограничения на имена наших пользователей. Допустим, теперь мы требуем, чтобы уникальные ники состояли исключительно из букв английского алфавита и арабских цифр. В коде это будет выглядеть так:

In [58]:
username = input()

if not username.isalnum():
    raise ValueError(
        f'invalid username: {username}; '
        'username should consist of digits and english letters'
    )

### Специальные методы форматирования

Следующие методы относятся к специальным методом форматирования строки: `center()`, `ljust()`, `lstrip()`, `rjust()`, `rstrip()`, `strip()`.

**center()**:

In [59]:
help(str.center)

Help on method_descriptor:

center(self, width, fillchar=' ', /)
    Return a centered string of length width.
    
    Padding is done using the specified fill character (default is a space).



In [66]:
string = 'SUCCESSFULLY BUILD'

print(
    string.center(80),
    string.center(80, '-'),
    string.center(10, '='),
    sep='\n'
)

                               SUCCESSFULLY BUILD                               
-------------------------------SUCCESSFULLY BUILD-------------------------------
SUCCESSFULLY BUILD


**ljust() / rjust()**:

In [67]:
help(str.ljust)

Help on method_descriptor:

ljust(self, width, fillchar=' ', /)
    Return a left-justified string of length width.
    
    Padding is done using the specified fill character (default is a space).



In [70]:
help(str.rjust)

Help on method_descriptor:

rjust(self, width, fillchar=' ', /)
    Return a right-justified string of length width.
    
    Padding is done using the specified fill character (default is a space).



In [73]:
string = 'SUCCESSFULLY BUILD'

print(
    string.ljust(60),
    string.ljust(60, '.'),
    string.ljust(10, '='),
    sep='\n',
    end='\n\n'
)

print(
    string.rjust(60),
    string.rjust(60, '.'),
    string.rjust(10, '='),
    sep='\n'
)

SUCCESSFULLY BUILD                                          
SUCCESSFULLY BUILD..........................................
SUCCESSFULLY BUILD

                                          SUCCESSFULLY BUILD
..........................................SUCCESSFULLY BUILD
SUCCESSFULLY BUILD


**Пример использования:**

Данные методы могут оказаться полезными при логировании некоторой информации. Например, у вас выполняется некоторая долгая работа, чтобы понимать, что все в порядке, и ничего не вылетело, логично выводить в консоль или записывать в специальный файл отладочную информацию, которая может быть отформотирована специальным образом:

In [74]:
from time import sleep

In [92]:
def simulate_some_job() -> None:

    success_status = 'SUCCESS'

    print('START BUILDING'.center(80, '='))
    message = 'compile files'
    print(message.ljust(80, '.'), end='')
    sleep(3)
    message = message.ljust(80 - len(success_status), '.') + success_status
    print('\r' + message)
    message = 'prepare libs'
    print(message.ljust(80, '.'), end='')
    sleep(1)
    message = message.ljust(80 - len(success_status), '.') + success_status
    print('\r' + message)
    message = 'link files'
    print(message.ljust(80, '.'), end='')
    sleep(2)
    message = message.ljust(80 - len(success_status), '.') + success_status
    print('\r' + message)
    print('SUCCESSFULLY BUILD'.center(80, '='))

In [93]:
simulate_some_job()

compile files............................................................SUCCESS
prepare libs.............................................................SUCCESS
link files...............................................................SUCCESS


**strip()/ lstrip()/ rstrip()**:

In [94]:
help(str.strip)

Help on method_descriptor:

strip(self, chars=None, /)
    Return a copy of the string with leading and trailing whitespace removed.
    
    If chars is given and not None, remove characters in chars instead.



In [97]:
help(str.lstrip)

Help on method_descriptor:

lstrip(self, chars=None, /)
    Return a copy of the string with leading whitespace removed.
    
    If chars is given and not None, remove characters in chars instead.



In [100]:
help(str.rstrip)

Help on method_descriptor:

rstrip(self, chars=None, /)
    Return a copy of the string with trailing whitespace removed.
    
    If chars is given and not None, remove characters in chars instead.



In [102]:
string = '    aboba  '
print(
    string.strip(),
    string.lstrip(),
    string.rstrip(),
    sep='\n',
    end='\n\n'
)

string = 'abcdefgfedcba'
print(
    string.strip('abc'),
    string.lstrip('abc'),
    string.rstrip('abc'),
    sep='\n',
    end='\n\n'
)

aboba
aboba  
    aboba

defgfed
defgfedcba
abcdefgfed



**Пример использования:**

Данные методы могут оказаться полезными, когда, скажем, вам известно форматирование строки, и вы хотите извлечь из строки определенную информацию, однако в строке может встретиться случайное число ведущих пробелов. 

In [106]:
id_position = slice(4, 11)
string = '         id: 1234567; name: Mike'

print(
    string[id_position],
    string.lstrip()[id_position],
    sep='\n'
)

     id
1234567


### Деление и объединение

К методам деления и объединения строк, которые мы будем рассматривать относятся следующие методы: `split()`, `join()`.

**split()**:

In [107]:
help(str.split)

Help on method_descriptor:

split(self, /, sep=None, maxsplit=-1)
    Return a list of the substrings in the string, using sep as the separator string.
    
      sep
        The separator used to split the string.
    
        When set to None (the default value), will split on any whitespace
        character (including \\n \\r \\t \\f and spaces) and will discard
        empty strings from the result.
      maxsplit
        Maximum number of splits (starting from the left).
        -1 (the default value) means no limit.
    
    Note, str.split() is mainly useful for data that has been intentionally
    delimited.  With natural text that includes punctuation, consider using
    the regular expression module.



In [114]:
string = 'Hello  wonderful world    !'
print(
    string.split(),
    string.split(' '),
    string.split('wo'),
    string.split(maxsplit=2),
    sep='\n'
)

['Hello', 'wonderful', 'world', '!']
['Hello', '', 'wonderful', 'world', '', '', '', '!']
['Hello  ', 'nderful ', 'rld    !']
['Hello', 'wonderful', 'world    !']


**Пример использования:**

Метод split() может показаться очень полезным, для разбиения текста на отдельные слова, что и было продемонстрировано выше. В частности, этот метод будет полезен вам на курсе по машинному обучению.

**join()**

In [115]:
help(str.join)

Help on method_descriptor:

join(self, iterable, /)
    Concatenate any number of strings.
    
    The string whose method is called is inserted in between each given string.
    The result is returned as a new string.
    
    Example: '.'.join(['ab', 'pq', 'rs']) -> 'ab.pq.rs'



In [116]:
words = ['apple', 'grape', 'orange']
print(
    ' '.join(words),
    '; '.join(words),
    ''.join(words),
    sep='\n'
)

apple grape orange
apple; grape; orange
applegrapeorange


**Пример использования**:

Данный метод может показаться полезным для формирования строк из перечислений для логирования или сообщений об ошибки. 

### Подстроки

В данном разделе перечислены методы работы с подстроками.

**endswith()/ startswith()**

In [117]:
help(str.endswith)

Help on method_descriptor:

endswith(...)
    S.endswith(suffix[, start[, end]]) -> bool
    
    Return True if S ends with the specified suffix, False otherwise.
    With optional start, test S beginning at that position.
    With optional end, stop comparing S at that position.
    suffix can also be a tuple of strings to try.



In [120]:
help(str.startswith)

Help on method_descriptor:

startswith(...)
    S.startswith(prefix[, start[, end]]) -> bool
    
    Return True if S starts with the specified prefix, False otherwise.
    With optional start, test S beginning at that position.
    With optional end, stop comparing S at that position.
    prefix can also be a tuple of strings to try.



In [125]:
string = 'hello, world'

print(
    string.endswith('world'),
    string.endswith('world', 6),
    string.endswith('world', 6, 9),
    sep='\n',
    end='\n\n'
)

print(
    string.startswith('hello'),
    string.startswith('hello', -12, -5),
    string.startswith('hello', 6, 9),
    sep='\n',
    end='\n\n'
)

True
True
False

True
True
False



**find()/ rfind()**:

In [126]:
help(str.find)

Help on method_descriptor:

find(...)
    S.find(sub[, start[, end]]) -> int
    
    Return the lowest index in S where substring sub is found,
    such that sub is contained within S[start:end].  Optional
    arguments start and end are interpreted as in slice notation.
    
    Return -1 on failure.



In [129]:
help(str.rfind)

Help on method_descriptor:

rfind(...)
    S.rfind(sub[, start[, end]]) -> int
    
    Return the highest index in S where substring sub is found,
    such that sub is contained within S[start:end].  Optional
    arguments start and end are interpreted as in slice notation.
    
    Return -1 on failure.



In [134]:
string = 'banana'

print(
    string.find('na'),
    string.find('na', 3),
    string.find('na', -4),
    string.find('na', 0, 3),
    sep='\n',
    end='\n\n'
)

print(
    string.rfind('na'),
    string.rfind('na', 0, 5),
    string.rfind('na', -4),
    string.rfind('na', 0, 3),
    sep='\n'
)

2
4
2
-1

4
2
4
-1


**Использование**:

Очевидно, для проверки, обладает ли строка тем или иным суффиксом/префиксом.

**index()/ rindex()**:

In [135]:
help(str.index)

Help on method_descriptor:

index(...)
    S.index(sub[, start[, end]]) -> int
    
    Return the lowest index in S where substring sub is found,
    such that sub is contained within S[start:end].  Optional
    arguments start and end are interpreted as in slice notation.
    
    Raises ValueError when the substring is not found.



In [136]:
help(str.rindex)

Help on method_descriptor:

rindex(...)
    S.rindex(sub[, start[, end]]) -> int
    
    Return the highest index in S where substring sub is found,
    such that sub is contained within S[start:end].  Optional
    arguments start and end are interpreted as in slice notation.
    
    Raises ValueError when the substring is not found.



In [142]:
string = 'banana'

try:
    print(
        string.index('na'),
        string.index('na', 3),
        string.index('na', -4),
        sep='\n'
    )
    print(string.index('na', 0, 3))
except ValueError as error:
    print(str(error), end='\n\n')

try:
    print(
        string.rindex('na'),
        string.rindex('na', 0, 5),
        string.rindex('na', -4),
        sep='\n'
    )
    print(string.rindex('na', 0, 3))
except ValueError as error:
    print(str(error))

2
4
2
substring not found

4
2
4
substring not found


### replace()

Метод replace не вошел ни в одну из категорий, но при этом является очень важным и частоиспользуемым.

In [143]:
help(str.replace)

Help on method_descriptor:

replace(self, old, new, count=-1, /)
    Return a copy with all occurrences of substring old replaced by new.
    
      count
        Maximum number of occurrences to replace.
        -1 (the default value) means replace all occurrences.
    
    If the optional argument count is given, only the first count occurrences are
    replaced.



**Пример использования:**

Вам пригодиться метод replace для наивной токенизации текстов в NLP(natural language processing). Для обучения некоторых глубоких моделей вам может потребоваться разбить текст на слова. Если сделать это с помощью split, то частью слов будут являться знаки препинания, что, разумеется, нежелательно. Тут вам и приходит на помощь метод replace, благодаря которому можно заменить нежелательные символы на пустые строки. 

In [148]:
string = (
    'This is a real text. It has commas and dots. '
    'For example, this sentance has comma and dot.'
)

print(string.split(), end='\n\n')

delete_signs = ['.', ',']

for delete_sign in delete_signs:
    string = string.replace(delete_sign, '')

print(
    string,
    string.split(),
    sep='\n'
)

['This', 'is', 'a', 'real', 'text.', 'It', 'has', 'commas', 'and', 'dots.', 'For', 'example,', 'this', 'sentance', 'has', 'comma', 'and', 'dot.']

This is a real text It has commas and dots For example this sentance has comma and dot
['This', 'is', 'a', 'real', 'text', 'It', 'has', 'commas', 'and', 'dots', 'For', 'example', 'this', 'sentance', 'has', 'comma', 'and', 'dot']


## Наборы символов

В модуле `string` стандартной библиотеки Python содержаться все необходимы наборы символов, которые могут быть вам полезны. Так, для примера выше вам не нужно создавать отдельный список с перечислением всех знаков пунктуации, а достаточно использовать соответствующий набор из модуля string.

**Важно**: не перезаписывайте значения переменных из модуля string. Многие методы строк полагаются на эти константы, их перезапись может привести к плачевным последствиям в вашем коде. 

In [149]:
import string

In [151]:
print(
    string.ascii_letters,
    string.ascii_lowercase,
    string.ascii_uppercase,
    string.digits,
    string.punctuation,
    sep='\n'
)

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
0123456789
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


## Форматирование строк

В Python существует возможность удобного форматирования строк: вставки в определенное место строки вычисленных значений в определенном формате. Данная возможность может быть очень полезна для целей логирования информации или создания полезных сообщений об ошибках. Форматирование строки может осуществляться несколькими способами: с помощью метода `format()`, который будет разобран в этом разделе, с помощью f-строк, и с помощью олдскульного С-подобного форматирования, которое мы рассматривать не будем.

In [163]:
from random import randint
from typing import Any
from enum import Enum

class Statuses(Enum):
    success = 'success'
    fail = 'fail'

In [223]:
def simulate_calculation(value):
    time = randint(1, 20)
    time_limit = 10

    if time > time_limit:
        return Statuses.fail, None, time

    return Statuses.success, value, time 

### Форматирование в простейшем варианте

In [208]:
msg_template = (
    '[INFO]: operation status: {}; operation result: {}; '
    'taken time: {};'
)

result = simulate_calculation(42)
print(msg_template.format(*result))

[INFO]: operation status: None; operation result: 15; taken time: Statuses.fail;


In [209]:
msg_template = (
    '[INFO]: operation status: {2}; operation result: {1}; '
    'taken time: {0};'
)

result = simulate_calculation(42)[::-1]
print(msg_template.format(*result))

[INFO]: operation status: None; operation result: 20; taken time: Statuses.fail;


In [210]:
msg_template = (
    '[INFO]: operation status: {}; operation result: {[1]}; '
    'taken time: {};'
)

print(msg_template.format('success', [1, 2], 7.4))

[INFO]: operation status: success; operation result: 2; taken time: 7.4;


In [212]:
msg_template = (
    '[INFO]: operation status: {.value}; operation result: {}; '
    'taken time: {};'
)

result = simulate_calculation(42)
print(msg_template.format(*result))

[INFO]: operation status: success; operation result: 42; taken time: 2;


### Отступы

In [226]:
msg_template = 'calculate(){.value:.>60}'
status, _, _ = simulate_calculation(42)

print(msg_template.format(status))

calculate()........................................................fail


In [227]:
msg_template = 'calculate(){.value:.<60}'
status, _, _ = simulate_calculation(42)

print(msg_template.format(status))

calculate()success.....................................................


In [228]:
msg_template = 'calculate(){.value:.^60}'
status, _, _ = simulate_calculation(42)

print(msg_template.format(status))

calculate()............................fail............................


### Точность

In [239]:
msg_template = 'VALUE: {:.3f};'

_, value, _ = simulate_calculation(3.141592)

if value:
    print(msg_template.format(value))

VALUE: 3.142;


In [240]:
msg_template = 'VALUE: {:.3g};'

_, value, _ = simulate_calculation(3.141592)

if value:
    print(msg_template.format(value))

VALUE: 3.14;


In [241]:
msg_template = 'VALUE: {:.3s};'

_, value, _ = simulate_calculation('string')

if value:
    print(msg_template.format(value))

VALUE: str;


### Вложенное форматирование

In [243]:
msg_template = 'VALUE: {number: >10.{precision}f};'

print(msg_template.format(number=3.1415926, precision=4))
print(msg_template.format(number=3.1415926, precision=3))
print(msg_template.format(number=3.1415926, precision=2))

VALUE:     3.1416;
VALUE:      3.142;
VALUE:       3.14;
