# <span style="color: blue;">Строки</span>

## Строки в Python

Нет разницы между одиночными и двойными кавычками

In [None]:
a = 'This word is "Hello".'
b = "I'll wait for you"

"foobar" == 'foobar'

Для многострочных блоков текста используют тройные кавычки (или "тройные двойные")

Когда нужно сохранить переносы строк в строке

In [None]:
"""foo
bar"""

In [None]:
'''foo
bar'''

Строковые литералы "склеиваются" (можно не писать "+", это более практично):

In [None]:
"foo" "bar"

In [None]:
if ("foo "
    "bar "
    "bar "):
    pass

#### Escape-последовательности (экранированные)

In [None]:
print(" \n \t \" \' \\ \xFF ")

In [None]:
print('\\\'')

#### Сырые строки (raw-strings)

Не обрабатываются экранированные последовательности:

In [None]:
s = r'asd\asd\asd\'ss'
s

In [None]:
print(s)

In [None]:
# единственная проблема в таком случае:
s = r'asd\asd\asd\'

Все escape-последовательности в доках: http://bit.ly/escape-sequences

## Как вообще хранить строки

_Во втором питоне со строками было сложно, в третем легче :)_

**Кодировка** — отображение из символов в байты (таблица соответствия)

**Символ** — минимальная компонента текста

## Какие бывают кодировки

Одна из самых первых: **ASCII** _(изначально USASCII, American Standard Code for Information Interchange)_

Параллельно с ней существовало множество других однобайтовых кодировок (`cp1251`, `cp866`, `koi8r`, ...)
<br>
По самому тексту нельзя было определить, какая там кодировка.

**Юникод** (**Unicode**) -- стандарт кодирования текста на разных языках _(более 130k символов)_

Фактически Юникод -- это сопоставление символу (codepoint) некоторого уникального номера

Но как хранить юникод-символы, как закодировать это множество символов байтами?
* *Unicode Transformation Format*, по N бит на каждый символ: `UTF-8`, `UTF-16`, `UTF-32`
* *Universal Character Set*, по N байт на каждый символ: `UCS-1`, `UCS-2`, `UCS-4`

Если кодировка использует более одного байта, то текст может содержать **BOM** (маркер последовательности байтов: `U+FEFF` или `U+FFFE`)

В Python все текстовые данные -- это unicode

In [None]:
s = "я строка"
list(s)

Отдельного типа для символов нет: каждый символ строки -- тоже строка

In [None]:
s[0], type(s)

In [None]:
list(s[0])

Начиная с версии 3.3 реализован [PEP-393](http://python.org/dev/peps/pep-0393)
* Если строка состоит только из ASCII-символов, то используется `UCS-1`
* Если максимальный код символа $< 2^{16}$, то используется `UCS-2`
* Иначе используется `UCS-4` _(по 4 байта на каждый символ)_

При этом в самой строке хранится дополнительно информация о том, какая это строка (`UCS-1` / `UCS-2` / `UCS-4`)

In [None]:
list(map(ord, "hello"))

In [None]:
list(map(ord, "привет"))

In [None]:
ord('🀱')  # горизонтальная доминошка

Python поддерживает экранированные последовательности для символов Юникода:

In [None]:
'\u0068', '\U00000068'

In [None]:
'\N{DOMINO TILE HORIZONTAL-00-00}'

Получить символ Юникода по его коду можно с помощью `chr`

In [None]:
chr(0x68)

In [None]:
chr(1087)

In [None]:
ch = 'п'
chr(ord(ch)) == ch

В Python 3.x можно переменные на русском называть (или любом другом языке), но лучше так не делать :)

In [None]:
привет = "мир :)"
привет

## Интересный "хак" для строк

In [None]:
my_str2 = ""
id(my_str2)

In [None]:
for i in range(10):
    my_str2 += "*"
    print(id(my_str2), my_str2)

Если на строку есть только одна ссылка, то строка иногда становится `mutable`
<br/>
(чтобы можно было удобно в цикле конкатенировать строки)

## Полезные функции строк

### Модификаторы регистра

In [None]:
"foo bar".capitalize()

In [None]:
"foo bar".title()

In [None]:
"foo bar".upper()

In [None]:
"foo bar".lower()

In [None]:
"foo bar".title().swapcase()

#### Забавный момент

In [None]:
"a".upper()

In [None]:
"a".upper().lower()

In [None]:
ch = '\N{LATIN SMALL LETTER SHARP S}'
ch

In [None]:
ch.upper()

In [None]:
ch.upper().lower()

### Выравнивание

In [None]:
"foo bar".ljust(16, '-')

In [None]:
"foo bar".rjust(16, '-')

In [None]:
"foo bar".center(16, '-')

В качестве символа по умолчанию используется пробел

Если длина блока меньше длины строки, то строка возвращается без изменений

### Удаление символов

Удаляет все вхождения указанных символов

In [None]:
"]>>foo bar<<[".lstrip("]>")

In [None]:
"]>>foo bar<<[".rstrip("[<")

In [None]:
"]>>foo bar<<[".strip("[]<>")

По умолчанию удаляются все пробелы:

In [None]:
"\t  foo bar \r\n".strip()

### Разделение

**`split`** разделяет строку на подстроки по указанному разделителю

In [None]:
"foo,bar".split(",")

In [None]:
"foo,,,bar".split(",")

Если разделитель не указан, то по любой последовательности пробелов (пробельных символов):

In [None]:
"\t  foo bar \r\n  ".split()

**`partition`** делит строку и возвращает кортеж из трёх элементов:
* подстрока до вхождения разделителя
* сам разделитель (если есть)
* подстрока после вхождения разделителя

In [None]:
"foo.bar.baz".partition(".")

In [None]:
"foo.bar.baz".rpartition(".")

#### Особенности:

In [None]:
"foo.tar.gz".split('.')

In [None]:
"foo.bar.baz.tar.gz".split('.')

In [None]:
"foo.bar.baz.tar.gz".split('.', 1)

In [None]:
"foo.bar.baz.tar.gz".rsplit('.', 1)

In [None]:
"foo.bar.baz.tar.gz".rsplit('.', 1000)

In [None]:
"foobar".rsplit('.', 1)
# иногда приходится проверять, сколько элементов было возвращено..

In [None]:
"foobar".rpartition('.')

In [None]:
"foobar".partition('.')

### Соединение

In [None]:
", ".join(["foo", "bar", "baz"])

С одной стороны, странно, что мы вызываем метод на разделителе, но:
* соединять можно различные элементы (списки, картежи, любые итераторы, даже другую строку)
* имеет смысл применять только для списка *строк*, а не для любых списков

In [None]:
", ".join(filter(None, ["foo", "", ""]))

In [None]:
", ".join("bar")

Если последовательность содержит объекты другого типа (не строки), будет ошибка:

In [None]:
", ".join(range(10))

Массово конкатенировать строки лучше именно через "`.join`", а не "`+=`"

In [None]:
", ".join([1, 2, 3])

In [None]:
", ".join(map(str, [1, 2, 3]))

#### Проверка на вхождение

Вхождение подстроки _(используется алгоритм Boyer-Moore)_

In [None]:
"foo" in "foobar"

In [None]:
"yada" not in "foobar"

Сравнение префикса или суффикса строки

In [None]:
"foobar".startswith("foo")

In [None]:
"foobar".endswith(("boo", "bar"))

In [None]:
"foobar".endswith(["boo", "bar"])  # список не подходит

#### Поиск подстроки

Первое вхождение подстроки

In [None]:
"abracadabra".find("ra")

In [None]:
"abracadabra".find("ra", 0, 3)  # ≈ [:3].find("ra")

**`index`** аналогичен **`find`**, но если подстрока не найдена, то выбрасывает исключение

In [None]:
"abracadabra".index("ra", 0, 3)

Для поиска последнего вхождения подстроки: **`rfind`** и **`rindex`**

In [None]:
"abracadabra".count("a")

#### Замена подстроки

In [None]:
# по умолчанию заменяет все вхождения:
"abracadabra".replace("ra", "**")

In [None]:
# заменить не более одного вхождения:
"abracadabra".replace("ra", "**", 1)

Множественная замена символов с помощью словаря трансляции

In [None]:
translation_map = {
    ord("a"): "*", 
    ord("b"): 63,  # '?'
}
"abracadabra".translate(translation_map)

#### Предикаты

Позволяют проверить строку на соответствие некоторому формату:

In [None]:
"100500".isdigit()

In [None]:
"foo100500".isalnum()

In [None]:
"foobar".isalpha()

In [None]:
"foobar".islower()

In [None]:
"FOOBAR".isupper()

In [None]:
"Foo Bar".istitle()

In [None]:
"\r  \n\t  \r\n".isspace()

И многие другие...

## Преобразование объекта в строку

В Python 3.x есть три способа:
* **`str`** -- человекочитаемое представление объекта
* **`repr`** -- представление объекта, по которому можно однозначно восстановить значение
* **`ascii`** -- аналогичен `repr`, но возвращаемая строка состоит только из ASCII

В Python 2.x были такие способы: `str`, `unicode`, `repr`

In [None]:
str("я строка")

In [None]:
repr("я строка")

In [None]:
ascii("я строка")

## New-style formatting (форматирование строк)

In [None]:
"{}, {}, how are you?".format("Hello", "Sally")

In [None]:
"Today is September, {}th.".format(8)

"`{}`" обозначает место, в которое нужно подставить аргумент

Внутри "`{}`" можно указать способ преобразования объекта в строку

### Способ преобразования объекта

In [None]:
"{!s}".format("я строка")

In [None]:
"{!r}".format("я строка")

In [None]:
"{!a}".format("я строка")

### Спецификация формата

Указывается после двоеточия: "`{:...}`"

#### Выравнивание в "блоке" фиксированной длины

In [None]:
'{:>20}'.format('test')

In [None]:
'{:20}'.format('test')

In [None]:
'{:^20}'.format('test')

In [None]:
'{:~^16}'.format("foo bar")

#### Перевод в другую систему счисления

In [None]:
"int: {0:d}  hex: {0:x}".format(42)

In [None]:
"oct: {0:o}  bin: {0:b}".format(42)

In [None]:
'{:+08.2f}'.format(42.4242)
# всего восемь знакомест, знак обязателен, две цифры после запятой

#### Комбинированный вариант

In [None]:
'{!r:~^16}'.format("foo bar")

### Аргументы

Внутри "`{}`" можно указать номер позиционного или имя ключаевого аргумента:

In [None]:
'{0}, {1}, {0}'.format('hello', 'kitty')

In [None]:
'{0}, {who}, {0}'.format('hello', who='kitty')

Но лучше не комбинировать разные подходы

Если один из аргументов -- **контейнер**, то можно обращаться к его элементам по индексу или ключу

In [None]:
point = 0, 10
"x = {0[0]}, y = {0[1]}".format(point)

In [None]:
point = {'x': 0, 'y': 10}
"x = {0[x]}, y = {0[y]}".format(point)

Аналогично можно обращаться к атрибутам объектов

### Подробнее здесь: https://pyformat.info

## Old-style formatting

Остался от Python 2.x, похож на `printf`

В Python 3.x считается deprecated

In [None]:
"%s, %s, how are you?" % ("Hello", "Sally")

In [None]:
point = {'x': 0, 'y': 10}
'x = %(x)+2d, y = %(y)+2d' % point

Он менее выразителен и гибок, чем `format`:
* `%` -- бинарный оператор, справа только один аргумент: кортеж или словарь
* каждый элемент кортежа используется только один раз
* нельзя обратиться к элементам контейнера или атрибутам объекта
* не предусмотрена возможность расширения

#### Пример некоторой неконсистентности

In [None]:
"%s" % [1, 2, 3]

In [None]:
"%s" % (1, 2, 3)

In [None]:
"%s" % "abc"

## f-строки _(formatted string literals)_

_Новое в Python 3.6_

In [None]:
a = 10
f'a = {a}'

In [None]:
name = "Fred"
f"He said his name is {name}."

In [None]:
import decimal
width = 10
precision = 4
value = decimal.Decimal("12.34567")
f"result: {value:{width}.{precision}}"  # nested fields

## Модуль `string`

In [None]:
import string

In [None]:
string.digits

In [None]:
string.ascii_letters

In [None]:
string.punctuation

In [None]:
string.whitespace

_А также многое всякое разное_

#### Ремарка насчёт пунктуации:
    
В модуле `unicodedata` можно получить информацию по символу. 
<br/>
В частности, если код начинается с "`P`" -- значит это пунктуация в каком-то из языков

In [None]:
import unicodedata
unicodedata.category('.')

In [None]:
unicodedata.category('—')

## Тип `bytes`

В Python 2.x был некоторый бардак, в Python 3.x навели порядок

Теперь строки имеют именно символьный смысл, и не могут содержать "бинарные" данные

Тип **`bytes`** — неизменяемая последовательность байтов

#### Литералы для байтов и "сырых" байтов:

In [None]:
b'\00\42\24\00'

In [None]:
rb'\00\42\24\00'

#### Кодирование и декодирование (байты ↔ строки)

In [None]:
chunk = "я строка".encode('utf-8')
chunk

In [None]:
chunk.decode('utf-8')

Стандартная библиотека Python поддерживает более сотни кодировок

In [None]:
chunk = "я строка".encode('cp1251')
chunk

Если указать неверную кодировку, будет исключение:

In [None]:
chunk.decode('utf-8')

#### Обработка ошибок кодирования/декодирования

`encode` и `decode` принимают опциональный аргумент, контроллирующий логику обработки ошибок:
* `strict` — ошибочные символы генерируют исключение
* `ignore` — ошибочные символы пропускаются
* `replace` — ошибочные символы заменяются на `"\uFFFD"`
* _есть и другие варианты, например:_<br/> `backslashreplace`, `xmlcharrefreplace`, `namereplace`

In [None]:
chunk = "я строка".encode("cp1251")

In [None]:
chunk.decode('utf-8', 'ignore')

In [None]:
chunk.decode('utf-8', 'replace')

#### Кодировка по умолчанию

Если не указывать кодировку, то Python будет использовать системную кодировку по умолчанию:

In [None]:
import sys
sys.getdefaultencoding()

В линукс и OS-X — это `UTF-8`

In [None]:
'я строка'.encode()

### Методы работы с байтами

Похожи на методы работы со строками, за исключением:
* `encode`
* `format`
* некоторых предикатов

Важно помнить: байты не соответствуют символам

In [None]:
"boo" in b'foobar'

In [None]:
b'foobar'.replace('o', '')

## `base64`

Как бы отправить бинарные данные в текстовом виде?

Байты превращает в символы (используя 64 допустимых символа)

## `pickle`

Лучше не использовать _(небезопасно)_

Между своими версиями несовместим, то есть не универсальный