## Строки, байты, файлы (str, files)

### Особенности

Строки можно обозначать с помощью одинарных или двойных кавычек. Сделано это для удобства (чтобы в печатаемом тексте можно было отображать различные кавычки).

In [1]:
'This is string'

'This is string'

In [2]:
"This is also string"

'This is also string'

Тройные кавычки используются писать многострочные блоки текста: документация для функций, модулей, классов.

In [None]:
str = """This is multiline


text

with 


vertical brakes"""


print(str)

Строки, идущие подряд, склеиваются:

In [None]:
def foo(str):
    return str

foo("Nick"
   " Zhukov"
   " emailto: njhuckov@gmail.com")

Строковые литералы могут содержать экранированные последовательности.В сырых строках (raw strings) экранированные последовательности не обрабатываются.

In [3]:
print("This is \t tabulation")
print(r"This is raw string with \t tabulation")

This is 	 tabulation
This is raw string with \t tabulation


Тип str - неизменяемая последовательность символов Unicode.

In [8]:
str = "str oka"

lst = list('str oka') 
print(type(str))
print(type(lst[2]))

<class 'str'>
<class 'str'>


В Python нет отдельного типа для символов. Всё есть строка. Даже символ - строка.

Python поддерживает экранированные последовательности для символов Юникода:

In [9]:
"\u0068", "\u0069"

('h', 'i')

Можно также получить символ по имени с помощью названия в строковом представлении.

Для получения символа по его коду можно использовать функцию chr(), а для обратной операции — ord().

In [24]:
print(ord('а'))
print(chr(1039))
print(ord('Б'))

1072
Џ
1041


Для работы со строками доступно множество методов. Например:

capitalize() – Переводит первый символ строки в верхний регистр, а все остальные в нижний
title() – Первую букву каждого слова переводит в верхний регистр, а все остальные в нижний
upper() – Преобразование строки к верхнему регистру
lower() – Преобразование строки к нижнему регистру
swapcase() – Переводит символы нижнего регистра в верхний, а верхнего – в нижний

In [None]:
'hello world'.capitalize()

## Выравнивание
При выводе мы можем выравнивать строку в неком блоке фиксированной ширины. Для этого используются:

"foo bar".ljust(16, '~')
"foo bar".rjust(16, '~')
"foo bar".center(16, '~')
Здесь первый параметр - длина (размер) блока, а дополнительные позиции заполняются (если указано) символом (второй аргумент). По умолчанию используется пробельный символ. Если длина блока меньше длины строки, то строка возвращается без изменений.

In [26]:
"foo bar".ljust(16, '•')

'~~~~~~~~~foo bar'

## Удаление символов
lstrip() и rstrip(), strip() — удаляет символы, указанные в качестве параметра справа, слева, везде. Если вызвать без аргумента, удалит пробельные символы с обоих концов

Разделение строки
split() - разделяет строку на подстроки по указанному разделителю. Если не указан разделитель, то строка делится по любым пробельным символам.

In [30]:
"/* This is a CSS comment */".lstrip("/*")

' This is a CSS comment */'

In [35]:
"<!-- This is a CSS comment -->".strip("<!-->") # удаляет все символы, рассматривая аргумент как МНОЖЕСТВО значений для удаления

' This is a CSS comment '

Второй аргумент у функции split() - максимальное количество разделений, разделение справа - rsplit().

In [36]:
"Karolina,Sasha,Maxim,kek".split(',')

['Karolina', 'Sasha', 'Maxim', 'kek']

In [38]:
"file.tar.gz".rsplit(".",2)

['file', 'tar', 'gz']

Разбивает строку на три составляющие (начало, разделитель, конец) и возвращает в виде кортежа. Направление разбиения: слева направо.

С помощью функции partition() можно вернуть кортеж из трех элементов, подстрока до вхождения разделителя, сам разделитель и подстрока после вхождения разделителя, где разделитель - последний встреченный. Структура возвращаемого результата всегда фиксирована.

In [40]:
"foo.bar.baz".rpartition("bar")

('foo.', 'bar', '.baz')

In [None]:
"foo.bar.baz".rpartition(".")

Строки можно конкатенировать с помощью +, а можно с использованием функции join(). Указывается с разделителем. Необходимо привести объект к строке, если это не будет строкой, то будет вызвана ошибка.

In [41]:
", ".join(["foo", "bar", "kek"])

'foo, bar, kek'

In [42]:
",".join('foo')

'f,o,o'

## Проверка на вхождение 
Проверка подстроки в строке с помощью операторов in, not in:

In [43]:
"bar" in "foobar"

True

Можно сравнивать префикс или суффикс строки с одной или несколькими строками:

In [44]:
"foobar".startswith("foo")

True

In [45]:
"foobar".endswith(("100500","bar"))

True

## Поиск подстроки
Найти место первого вхождения подстроки можно с помощью метода find(). Если не нашёл искомой подстроки, вернет “-1”.

In [46]:
"someverylongstringsentence".find("str")

12

Метод index() выполняет аналогичную функцию, но, если искомая подстрока не найдена выбрасывает исключение:

In [48]:
"someverylongstringsentence".index("strong")

ValueError: substring not found

Для поиска места последнего вхождения подстроки можно воспользоваться методами rfind() и rindex().

Замена подстроки
Для замены подстроки в строке используется метод replace(). По умолчанию заменяет все вхождения (если не указано число - количество замен):

In [49]:
"someverylongstringsentence".replace("long","wide")

'someverywidestringsentence'

Метод translate() позволяет организовать множественную замену, принимающий словарь трансляции:

In [50]:
trans_map = {ord("s"):"$", ord("e"):"3", ord("o"):"0"}

"this is a string, someverylongstringsentence".translate(trans_map)

'thi$ i$ a $tring, $0m3v3ryl0ng$tring$3nt3nc3'

Предикаты
Проверяют строку на соответствие некоторому формату: isdigit(), islpha(), islower(), isupper()