### Строки и методы работы с ними

Строка - это набор символов. В этом смысле строка неэлементарна и разложима; строчку можно перебрать по символам, а значит, она итерируемая: итерируемые объекты - такие, которые можно перебрать по частям. При этом строка неизменяемая! Мы можем обратиться к одному символу в строке, но перезаписать его не можем.

Существует несколько вариантов, как можно закавычивать строки:

    'Hello'
    "Hello"

    '''Hello'''
    """Hello"""

Теоретически любой вариант сообщает питону, что перед ним строка. Какие между этими способами различия?

- если у нас внутри строки встречается апостроф, удобнее использовать двойные кавычки;

- тройные кавычки позволяют строку разрывать переносами, а одинарные (в любом варианте) требуют, чтобы мы писали \n:


        'Hello\nworld'
        """Hello
        world"""

- а еще тройными кавычками часто обозначают комментарии в коде! Комментарии вообще мы уже видели: если комментарий - это просто приписка к строке кода, можно его отделить #, но это действует только до конца строки. Тройными кавычками выделяются длиннющие комментарии на много строк. 

В связи с этим давайте познакомимся со специальными последовательностями в питоне. Некоторые символы в строках обозначают не сами себя, а что-то еще, например, перенос на новую строку обозначается условно как \n. Бэкслеш \ вообще служит для *экранирования*: то есть когда мы хотим, чтобы какой-то символ обозначал сам себя, мы перед ним можем поставить \, ну например:

In [1]:
print('King\'s crown')  # мы хотим, чтобы апостроф в слове king's читался именно как апостроф, а не как конец строки
print('This is backslash: \\')  # бэкслэш экранирует сам себя: выведется только один \

King's crown
This is backslash: \


Строка у нас состоит из символов, поэтому у нее есть длина! (Обратите внимание: числа, хотя они с точки зрения человека тоже могут состоять из нескольких цифр, составными для питона не являются. Поэтому для питона число - это *неитерируемый* цельный объект). Длину можно измерить с помощью функции len:

In [2]:
len('qwerrty')

7

Старайтесь не называть свои переменные такими же именами, как функции питона, поэтому избегайте переменной с именем len :)

Символы в строке нумеруются, это называется индексация. Практически все (с о-очень редкими исключениями) вещи в питоне нумеруются с 0! Поэтому первый символ в строке идет под индексом 0, второй - 1 и так далее.

С понятием индекса связано понятие среза: срез - это часть строки (или списка).

Как с этими вещами работать:

In [3]:
s = 'qweqweqweqwe'
print(s[0]) # выведет первый символ в строке
print(s[1:4]) # выведет все символы со 2 по 4
print(s[1:5:2]) # выведет все символы со 2 по 5 через один
print(s[:2]) # выведет все символы с начала до 2
print(s[1::2]) # выведет все символы со 2 до конца через один

q
weq
wq
qw
wqewqe


Общий шаблон для среза такой:

    [start:stop:step]

Первое число - почти обязательное: если мы укажем только его, то возьмется один элемент с этим индексом.

Второе число может отсутствовать: это правая граница отрезка. В питоне все отрезки по умолчанию воспринимаются как [...), то есть, левая граница входит в отрезок, а правая нет.

Шаг - тоже необязательный.

Если мы пропускаем что-то из этого, то питон по умолчанию считает, что start = 0, stop = len(s), step = 1.

Индексация в строке устроена циклично! Индекс -1 означает 0 - 1 и ссылается на последний элемент в строке. Очень удобно, когда не знаем заранее длины строки! Шаг тоже вполне может быть отрицательным, тогда мы просто пойдем по строке задом наперед. 

Какие арифметические операции можно выполнять со строками:

In [4]:
print('hello' + ' world') # конкатенация
print('hello' * 3) # умножение на целое число

hello world
hellohellohello


Строки можно сравнивать: строки сравниваются *посимвольно*. Это означает, что питон сперва сравнивает между собой первые символы в обеих строках, если они равны - то вторые и так пока не дойдет либо до конца строки, либо до различающихся символов. 

Как питон сравнивает символы? Тут нужно немножко углубиться в понятие кодировки. 

Помним, что для компьютера все данные - это на самом деле числа, и наши буквы тоже должны быть закодированы в числах. Весь вопрос в том, как их кодировать. Существуют разные варианты кодировок. 

Сперва люди решили отводить на кодировку одной буквы один байт (8 бит). То есть, каждой букве в специальной табличке приписывался номер из восьми ноликов и единичек. Но сколько уникальных номеров можно так записать? У нас всего 2 возможных значения для бита (0 и 1), а в байте 8 бит, следовательно, уникальных комбинаций будет по правилам комбинаторики:

In [5]:
2 ** 8

256

Так люди в первые 128 столбцов этой таблички положили стандартные символы типа пробела, цифры и латинский алфавит, а остальные 128 символов оставили для других алфавитов. Это было очень неудобно, потому что текст в кириллице, получается, занимал те же порядковые номера в таблице, что и текст на греческом языке, например. 

Сама кодировка, к слову, называется [ASCII](https://ru.wikipedia.org/wiki/ASCII), можете на Википедии про нее почитать. В Windows, по крайней мере, до версии 10 включительно, все работало в кодировке cp1251: это аски с добавлением кириллицы в хвост. Если вы работаете локально на своем компьютере, проверить кодировку можно следующими командами:

In [6]:
import locale

locale.getpreferredencoding()

'UTF-8'

В операционных системах Linux и macOS (и в колабе, потому что его сервера работают на Linux), однако, используется другая разновидность. Что такое UTF-8?

Ну, очевидно, 256 символов на все буквы всех алфавитов недостаточно, поэтому люди решили отвести целых 4 байта на символ. Если мы кодируем одну букву 4 байтами (то есть, 32 битами), то можно закодировать:

In [7]:
2 ** 32

4294967296

Очень много букв! До сих пор заняты еще не все позиции. Такая кодировка в общем случае называется Unicode, и табличку для нее можно посмотреть, например, [здесь](https://unicode-table.com/en/). В Юникод влезают все алфавиты на свете, я вас поздравляю. Там есть несколько разновидностей: utf-8, utf-16 и utf-32, но нам с вами в это можно не вникать, достаточно знать, что в кодировке utf-8 работает колаб, а также ноутбуки с системами MacOS и Linux. 

Так вот, и питон тоже работает в utf-8, а значит, поддерживает любые кракозябры. Собственно, и сравнение символов происходит именно на основании этой таблицы: у какого символа порядковый номер по юникоду меньше, тот и меньше. Узнать, какой порядковый номер у символа, можно функцией ord():

In [8]:
ord('b')

98

Обратную операцию выполняет функция chr():

In [9]:
chr(98)

'b'

Теперь настало время поговорить про функции и методы. 

Мы знаем, например, две самых необходимых функции ввода и вывода: print и input. Обратите внимание:

    print() # вызовет функцию

    s = print # воспримет только название функции и не вызовет ее, и после такого присваивания можно писать s(), потому что s - это то же, что print

То есть, если у нас есть функция, чтобы ее вызвать, нужно поставить круглые скобочки. В скобочках могут быть аргументы (они бывают обязательные и нет).

У print() нет обязательных аргументов, но она умеет их принимать. Какие можно ей передавать аргументы:

    print(*args, sep='', end='')
    (Это на самом деле не все, но пока обойдемся этими).

*args - позднее мы разберемся, что это означает, но это постоянно встречается в документации питона, поэтому пока запомните, что это означает "неопределенное количество аргументов, переданных позиционным способом", а "позиционный способ" означает, что мы просто их пихаем в определенном порядке (будем разбирать, когда будем учиться в функции).

Также мы знаем еще такие функции:

In [None]:
int() # превращает все в целые числа (что может)
float() # превращает все в числа с плавающей точкой
bool() # превращает все в тип bool: True\False
str() # превращает все в строки
type() # выводит, к какому типу относится наша переменная
ord()
chr()
len()

Так вот, а бывают методы. Методы - это тоже функции, но в отличие от функций-функций, их можно применять только к конкретному типу данных. То есть, в print() мы можем передать все, что угодно, или вообще ничего не передать:

In [10]:
print()




Он гордый и независимый. А вот метод обязательно должен применяться к какому-нибудь конкретному экземпляру. Например, у нас есть строка s, и мы хотим убрать у нее с краев лишние пробельные символы:

In [11]:
s = '   hello   '
s.strip()

'hello'

Видим: метод пишется через точку от объекта, к которому применяется (это может быть переменная или конкретное что-то, но сам по себе метод не существует). Точка в питоне обозначает принадлежность чего-то чему-то. 

В остальном метод работает, как и любая функция, то есть:

- может принимать аргументы или не принимать
- может иметь именованные параметры (которые с именем пишутся, как sep и end в print)
- может что-нибудь возвращать, а может ничего не возвращать

В частности, методы строк всегда что-нибудь возвращают. Это потому, что строки у нас *неизменяемые* (как и все числа): мы не можем изменить строки по частям, только полностью перезаписать.

Про возвращения мы подробно еще не говорили, но идея такая: любая функция (и метод) может вернуть какой-нибудь объект после того, как отработает, а может вернуть пустоту. Например, print() свою работу делает, но ничего не возвращает, никаких новых объектов:

In [12]:
s = print() # print ничего не возвращает! Он только выводит в печать что-то
type(s) # тип объекта s - None, то есть, ничего. 




NoneType

Когда мы попытались сохранить результат работы функции print() в переменную, в ней оказалась пустота.

А вот input() - и большинство других нам известных функций - возвращает какой-то объект. В частности, input() всегда возвращает строчку:

In [13]:
s = input()
type(s)

 123


str

Итак, какие методы мы с вами рассмотрели:

In [None]:
# Возвращают строки
s.replace('a', 'b')  # заменяет все 'a' на 'b' (может несколько символов заменить сразу: 'ab' на 'c')
s.strip()  # отрезает все пробельные символы слева и справа. Если в скобочках указать какой-то символ, то будет отрезать его: s.strip('!') будет отрезать восклицательные знаки
s.rstrip()  # тоже отрезает, но только справа
s.lstrip() # отрезает только слева
s.upper()  # ВЕРХНИЙ РЕГИСТР
s.lower()  # нижний регистр
s.capitalize() # Первая заглавная буква
s.title()  # Все Буквы Заглавные
# Возвращают числа:
s.find('y')  # индекс первого нашедшегося слева такого символа. Если ничего не нашел, то -1
s.rfind('l') # индекс первого нашедшегося справа такого символа. Если ничего не нашел, то -1
s.index('y') # работает так же, как find, но если не нашел такой символ, то вывалит ошибку
s.count('l')  # посчитает, сколько раз в строке встретился символ (или символы)
# Проверки (возвращают bool)
s.startswith('qwerty')  # начинается ли строка на?.. эквивалентно s[:6] == 'qwerty'
s.endswith('uiop')  # заканчивается ли строка на?.. эквивалентно s[-4:] == 'uiop'
s.isupper() # строка состоит только из заглавных букв?
s.islower() # строка состоит только из строчных букв?
s.istitle() # в строке все слова начинаются на заглавную букву?
s.isdigit() # '1233'
s.isalpha() # 'asd'
s.isspace() # '  \xa0 \t\n
s.isalnum() # '123asd'

Для проверки, есть ли какой-то символ (или последовательность символов) в строке, можно еще использовать оператор in:

In [14]:
's' in 'strike'

True

такое выражение вычисляется и возвращает True\False. Конечно, как и все остальные условные выражения, его разумно использовать только с переменными (с литералами мы и без питона можем сказать, что буква s в слове strike есть).