# Работа со строками

## Типы строк

### Bytestring и string

<b>bytestring</b> - последовательность байтов, трудно воспринимаемая человеком.

Любая информация должна быть переконвертирована в bytestring прежде чем хранить её на компьютере.

<b>string</b> - последовательность символов, легко читаемая человеком.

Последовательность символов не может напрямую быть помещена в память компьютера.<br>
Поэтому сначала она кодируется (encode) в bytestring.<br>
Существует много типов кодировок, с помощью которых можно конвертировать string в bytestring, например ASCII и UTF-8.

### Задание строк - префиксы b, u, r, f и их комбинации. Encode / decode

#### 1) b или B - bytestring
They may only contain ASCII characters; bytes with a numeric value of 128 or greater must be expressed with escapes.

In [1]:
print(b'I am a bytestring')
print(B'I am a bytestring')

b'I am a bytestring'
b'I am a bytestring'


С помощью метода <b>.encode</b> можно закодировать строку с указанием кодировки

In [2]:
'I am a string'.encode('ASCII')

b'I am a string'

Если знаем в какой кодировке была закодирована строка, можно ее раскодировать обратно в string

In [3]:
b'I am a string'.decode('ASCII')

'I am a string'

bytestring может содержать только ASCII символы.<br>
Байты с числовым сначением, большим чем 128 (включительно), должны быть написаны с символом backslash <b>'\'</b> перед каждым символом.

In [4]:
'你好'.encode('UTF-8')

b'\xe4\xbd\xa0\xe5\xa5\xbd'

In [5]:
b'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('UTF-8')

'你好'

#### 2) u или U - строки в Unicode

По умолчанию Python 2 использует алфавит ASCII. ASCII даже с расширениями ограничен парой сотен символов, и, очевидно, является не самым гибким методом кодирования, особенно это касается символов, не относящихся к английскому алфавиту.

Более универсальный и надежный метод кодировки символов Unicode поддерживает более 128 000 символов. Чтобы использовать Unicode, в Python 2 нужно начинать строку с префикса u.

Python 3 использует Unicode по умолчанию. Это не только экономит время разработчика, но и открывает доступ к огромному набору символов. Unicode поддерживает разнообразные символы и эмодзи, а также гарантирует поддержку проекта на мобильных устройствах.

Если вы хотите сделать код Python 3 обратно совместимым с Python 2, вы можете по-прежнему использовать префикс u.

In [6]:
u"Hello, World!"

'Hello, World!'

Чтобы вывести символ Unicode внутри строки, нужно написать его в сыром виде \uXXXX

In [7]:
"It's a Unicode literal \u1222"

"It's a Unicode literal ሢ"

#### 3) r или R - тип "сырой" строки raw string: backslashes воспринимаются как обычный символ

Символ '\' кодируется в '\\'

In [8]:
br'\xe4\xbd\xa0\xe5\xa5\xbd'.decode('UTF-8')

'\\xe4\\xbd\\xa0\\xe5\\xa5\\xbd'

Raw string не воспринимает префикс '\U' и '\u'.<br>
Также в Python 2.x’s unicode символы в сыром виде ведут себя иначе, чем в Python 3.x.

По этим причинам совместное использование 'ur' не поддерживается.

#### 4) f или F - форматированные строки

In [9]:
name = 'Fred'
age = 42

f'He said his name is {name} and he is {age} years old.'

'He said his name is Fred and he is 42 years old.'

Это то же самое, что и метод <b>.format()</b>, однако способом выше можно вставлять переменные напрямую в строку.<br>

'f' можно использовать с 'r', но нельзя с 'b' или 'u'

## 4.2.2. Операции со строками

### str.split

<b>str.split(sep=None, maxsplit=-1)</b> - возвращает список, элементами которого являются части строки

sep - символ по которому будет производиться разбиение строки.<br>
Если sep не указан или None, разбиение идет по пробельным символам.<br>
Пустые строки убираются из списка.

maxsplit - максимальное число разбиений строки<br>
maxsplit=-1 значит максимально возможное число разбиений

In [10]:
'A B'.split()

['A', 'B']

In [11]:
s = 'First part of string;second part; third'
s.split(sep=';', maxsplit=1)

['First part of string', 'second part; third']

### str.startswith

<b>str.startswith(prefix[, start[, end]])</b>

Возвращает <b>True</b>, если строка начинается с указанного префикса, <b>False</b> - иначе.<br>
Опциональный параметр <b>start</b> - начать проверку строки с этой позиции.<br>
Опциональный параметр <b>end</b> - закончить проверку строки на этой позиции.

In [12]:
s = 'I am a string'

In [13]:
s.startswith('I')

True

In [14]:
s.startswith('I', 1)

False

### str.endswith

Аналогично str.startswith, только проверка на окончание строки указанным префиксом.

In [15]:
s.endswith('g')

True

### Вхождение подстроки в строку

<b>str.find(str, [start],[end])</b> - Поиск подстроки в строке. Возвращает номер первого вхождения или -1<br>
<b>str.rfind(str, [start],[end])</b> - Поиск подстроки в строке. Возвращает номер последнего вхождения или -1<br><br>
<b>str.index(str, [start],[end])</b> - Поиск подстроки в строке. Возвращает номер первого вхождения или вызывает ValueError<br>
<b>str.rindex(str, [start],[end])</b> - Поиск подстроки в строке. Возвращает номер последнего вхождения или вызывает ValueError

In [16]:
s.find('I am')

0

In [17]:
s.rindex('a')

5

### str.join

<b>str.join(список)</b> - возвращает строку, составленную из элементов списка, разделителем между которыми является строка str

In [18]:
s.join(['First ', ' Second'])

'First I am a string Second'

### str.isalnum

<b>str.isalnum()</b> - возвращает True, если непустая строка состоит только из цифр или только из букв, иначе False

In [19]:
# Здесь будет False, потому что строка s содержит знак пробела

s.isalnum()

False

In [20]:
'123'.isalnum()

True

### str.isdigit

<b>str.isdigit()</b> - возвращает True, если непустая строка состоит из цифр, иначе False

In [21]:
s.isdigit()

False

In [22]:
'123'.isdigit()

True

### str.lower, str.upper, str.capitalize

<b>str.upper()</b> -  преобразование строки к верхнему регистру<br>
<b>str.lower()</b> - преобразование строки к нижнему регистру<br>
<b>str.capitalize()</b> - переводит первый символ строки в верхний регистр, а все остальные в нижний

In [23]:
print(s.upper(), s.lower(), s.capitalize(), sep='\n')

I AM A STRING
i am a string
I am a string


### str.ljust, str.rjust, str.lstrip, str.strip, str.rstrip

<b>S.ljust(width[, fillchar])</b> - делает длину строки не меньшей width, по необходимости заполняя последние символы символом fillchar (по умолчанию пробел)<br>
<b>S.rjust(width[, fillchar])</b> - делает длину строки не меньшей width, по необходимости заполняя первые символы символом fillchar (по умолчанию пробел)

In [24]:
s.ljust(20, '_')

'I am a string_______'

<b>S.lstrip([chars])</b> - удаление указанных символов в начале строки (по умолчанию пробел)<br>
<b>S.rstrip([chars])</b> - удаление указанных символов в конце строки (по умолчанию пробел)<br>
<b>S.strip([chars])</b> - удаление указанных символов в начале и в конце строки (по умолчанию пробел)

In [25]:
'  asd '.strip('a')

'  asd '

In [26]:
'a    asd   a'.strip('a')

'    asd   '

## Форматирование строк (часть 1)

### Оператор %

Выражение форматирования выглядит следующим образом:<br>

<b>определение_формата + % + объект(ы)</b>

Подставляем один аргумент:

In [27]:
'Nice to meet you, %s!' % 'Victor'

'Nice to meet you, Victor!'

Подставляем несколько аргументов:

In [28]:
'%d %s, %d' % (7, 'Oct', 2017)

'7 Oct, 2017'

В зависимости от того, что мы используем в качестве подстановки и что мы хотим получить в итоге, пишем разные значения:

<b>'%f', '%F'</b> - число с плавающей точкой<br>
<b>%d', '%i', '%u'</b>	- целое число в десятичной системе<br>
<b>%x', '%X'</b>	- целое число в шестнадцатиричной системе (маленькими или заглавными буквами соответственно)<br>

<b>'%s'</b>	- строка (как обычно воспринимается пользователем)<br>
<b>'%c'</b>	- символ (строка из одного символа или число - код символа)<br>

<b>'%%'</b>	- знак '%'

### str.format

<b>1)</b> Метод форматирования <b>str.format()</b> добавляют в строку один или несколько заполнителей, которые определяются фигурными скобками <b>{}</b>.<br>
Вы можете передать методу любое значение, которое необходимо вставить в строку.<br>
При запуске программы это значение будет добавлено в строку в то место, где находятся фигурные скобки.

In [29]:
"I have been waiting you for {} hours.".format(3)

'I have been waiting you for 3 hours.'

Также можно сохранить строку с заменителем в переменной

In [30]:
apple_string = "I have been waiting you for {}."
apple_string.format("3 hours")

'I have been waiting you for 3 hours.'

#### 2) Множественная замена

В строке можно использовать несколько заменителей

In [31]:
new_apple_string = "My name is {}, {}."         #2 {} заменителя
new_apple_string.format("Bond", "James Bond")   #Значения нужно разделить запятой

'My name is Bond, James Bond.'

Если фигурные скобки передаются без каких-либо параметров, Python вставит значения, переданные с помощью метода str.format (), по порядку

In [32]:
"My brother {} has a {}".format("Vladimir", "nice job")

'My brother Vladimir has a nice job'

Первая пара фигурных скобок заменяется первым значением метода, вторая пара – вторым значением. Значения метода выглядят так

In [33]:
("Vladimir", "nice job")

('Vladimir', 'nice job')

Эти данные являются кортежем. Любое значение кортежа можно вызвать с помощью индекса – порядкового номера (начиная с 0).

Вы можете использовать эти индексы внутри фигурных скобок:

In [34]:
"My brother {0} has a {1}".format("Vladimir", "nice job")

'My brother Vladimir has a nice job'

Если вы вызовете значение с индексом 2, а в методе значения с таким индексом нет, программа вернёт ошибку

In [36]:
"My brother {0} has a {2}".format("Vladimir", "nice job")

IndexError: tuple index out of range

Это значит, что запрашиваемый индекс находится вне диапазона кортежа (в данном случае это числа от 0 до 1 включительно, т.е. 0 и 1).

#### 3) Типы

В фигурные скобки можно добавить больше параметров.<br>
Попробуйте использовать синтаксис {field_name:conversion}, где field_name задаёт индекс аргумента метода str.format(), а conversion – тип данных с помощью односимвольного кода, который использует Python.<br>

s – строки (string)<br>
d – десятичные числа (decimal)<br>
f – число с плавающей точкой (float)

In [37]:
"Sam ate {0:f} percent of a {1}!".format(50, "pizza")

'Sam ate 50.000000 percent of a pizza!'

В первых фигурных скобках был использован синтаксис {field_name:conversion}, в остальных заполнителях используется только номер индекса.

Вы можете ограничить количество нулей после точки. Указывая тип f, вы можете дополнительно задать точность значения; для этого добавьте точку, затем укажите количество цифр, которое должно идти после запятой, а затем – сам тип.

In [38]:
"Sam ate {0:.3f} percent of a pizza!".format(50.621987)

'Sam ate 50.622 percent of a pizza!'

Как видите, несмотря на то, что в значении после точки идёт 6 символов, в строке отображается только три символа

Попробуйте уменьшить количество символов после точки до одного

In [39]:
"Sam ate {0:.1f} percent of a pizza!".format(50.621987)

'Sam ate 50.6 percent of a pizza!'

Попробуйте изменить тип данных на десятичные числа

In [40]:
"Sam ate {0:.d} percent of a pizza!".format(50.621987)

ValueError: Format specifier missing precision

Выведем только целое число и опустим все символы после точки

In [41]:
"Sam ate {0:.0f} percent of a pizza!".format(50.621987)

'Sam ate 51 percent of a pizza!'

## Форматирование строк (часть 2)

### Продолжаем знакомство с str.format

#### 4) Отступы в переменных

Чтобы создать внутренние отступы в заполнителях, вы можете просто увеличить размер поля с помощью дополнительных параметров.<br>


Для этого добавьте в фигурные скобки после индекса через двоеточие длину поля (в символах)

In [42]:
"Tom has {0:4} red {1:10}!".format(5, "apples")

'Tom has    5 red apples    !'

По умолчанию строки выравниваются внутри поля по левому краю, а числа – по правому краю.<br>
Это можно изменить с помощью символов:

< — выравнивание по левому краю<br>
^ — выравнивание по центру<br>
\> — выравнивание по правому краю.

Символ указывается после двоеточия.<br>
Например, чтобы выровнять объект в первых фигурных скобках по левому краю, а во вторых – по центру, нужно ввести

In [43]:
"Tom has {0:<4} red {1:^10}!".format(5, "apples")

'Tom has 5    red   apples  !'

По умолчанию Python заполняет свободное пространство внутри поля пробелами. Вы можете выбрать другой символ для заполнения. Его нужно указать сразу после двоеточия. 

In [44]:
"{:*^20s}".format("Hello")

'*******Hello********'

Эти параметры можно комбинировать с другими параметрами

In [45]:
"Sam ate {0:5.0f} percent of a pizza!".format(50.621987)

'Sam ate    51 percent of a pizza!'

В фигурных скобках указан индекс, длина поля в символах, затем количество символов после точки и тип данных

#### 5) Переменные

In [46]:
n_apples = 8
"Tommy has {} apples today!".format(n_apples)

'Tommy has 8 apples today!'

Можно и исходную строку поместить в переменную

In [47]:
tommy = "Tommy has {} apples today!"
n_apples = 8
tommy.format(n_apples)

'Tommy has 8 apples today!'

#### 6) Организация данных

Функции форматирования позволяют структурировать большое количество данных. Чтобы сделать вывод удобочитаемым, можно увеличить размер поля и изменить выравнивание.

Рассмотрим типичный пример Python, который выведет числа $i$, $i^2$ и $i^3$ в диапазоне от 3 до 12

In [48]:
for i in range(3,13):
    print(i, i ** 2, i ** 3)

3 9 27
4 16 64
5 25 125
6 36 216
7 49 343
8 64 512
9 81 729
10 100 1000
11 121 1331
12 144 1728


Этот вывод выглядит понятно, однако из-за сдвигов в нижней части наступает путаница. И чем больше символов будет в числе, тем большим будет сдвиг. В результате такой вывод будет неудобно читать.

Можно его отформатировать

In [49]:
for i in range(3,13):
    print("{:3d} {:4d} {:5d}".format(i, i*i, i*i*i))

  3    9    27
  4   16    64
  5   25   125
  6   36   216
  7   49   343
  8   64   512
  9   81   729
 10  100  1000
 11  121  1331
 12  144  1728


В данном случае фигурные скобки не содержат индекса.<br>
После двоеточия сразу идёт размер поля, затем тип данных (d).<br>
Таким образом, в каждом столбце окажется минимум один свободный символ.

Также можно задать одинаковое количество символов в каждом столбце.

In [50]:
for i in range(3,13):
    print("{:6d} {:6d} {:6d}".format(i, i * i, i * i * i))

     3      9     27
     4     16     64
     5     25    125
     6     36    216
     7     49    343
     8     64    512
     9     81    729
    10    100   1000
    11    121   1331
    12    144   1728
