## Строки и методы строк

Первое, что нужно знать про строки - это как они в питоне обозначаются. Мы уже выяснили, что целые числа просто пишутся как числа, числа с плавающей точкой пишутся с точкой (не с запятой!), а строки берутся в кавычки. Существует несколько вариантов, как можно закавычивать строки:

    'Hello'
    "Hello"
    
    '''Hello'''
    """Hello"""
    
Теоретически любой вариант сообщает питону, что перед ним строка. Какие между этими способами различия?

- С точки зрения интерпретатора: тройные кавычки позволяют строку разрывать переносами, а одинарные (в любом варианте) требуют, чтобы мы писали \n:

        'Hello\nworld'
        """Hello
        world"""
        
- С точки зрения конвенций: 1) двойные кавычки " чаще используются со строками, если вообще используются. А еще можно их использовать, чтобы внутри строки апострофы не нужно было экранировать: "King's crown" vs 'King\'s crown' 2) тройные кавычки используются для того, чтобы просто писать длинные комментарии, а тройные двойные кавычки ("""""") используются для того, чтобы писать docstrings. Что это, обсудим на следующей паре. 

Итак, строка - это **неизменяемый итерируемый** тип. Со строками менее очевидно, но:

In [1]:
a = 'hello'
a += ' world'
a

'hello world'

Объект 'hello' не изменился: мы просто в переменную а сложили другой объект. 

Итерируемость строк в первую очередь выражается в индексировании. Строка состоит из отдельных символов, к которым можно обращаться по их порядковым номерам:

In [2]:
a = 'qwerty'
print(a[0], a[-1], a[1:3], a[1:4:2])

q y we wr


В квадратных скобках можно указывать разные вещи: если указать одиночное число, то питон обратится к конкретному символу под этим номером, а если указать два числа через :, то питон это воспримет как *срез* - кусочек строки (подстроку). Срезы обычно легко запоминать так:

    [start:stop:step]
    
Причем любые две части можно опустить. Если не указать start, то питон по умолчанию возьмет срез с нулевого элемента строки. Если не указать stop, то по умолчанию срез дойдет до последнего символа в строке. step по умолчанию равен единице. 

Можно указывать отрицательные числа: -1 означает последний символ в строке, сколько бы их там ни было, -2 - предпоследний и т.д. Шаг -1 означает, что мы пойдем по строке задом наперед. 

Теперь пару слов о функциях и методах. Мы с вами уже довольно знаем функций в питоне:

    print()
    input()
    int()
    str()
    float()
    bool()
    type()
    
Функции могут что-то *возвращать*, а могут ничего не возвращать. Сравните:

In [4]:
returns = input()
doesnt_return = print()
print(f'input возвращает: {returns}, print не возвращает: {doesnt_return}')

 qwerty



input возвращает: qwerty, print не возвращает: None


А еще есть методы. Например, методы есть у строк. Они выглядят так:

    a.strip()  # возвращает новую строку без пробельных символов по краям
    
Методы - это такие же функции, но они прикреплены к конкретным типам данных. Например, у строк есть свои методы, которые нельзя применять к числам. Часто методы встроенных типов данных называются одинаково - но *по-разному реализованы внутри*. Метод пишется через точку от объекта, к которому применяется: точка в синтаксисе питона в общем случае означает принадлежность. 

Методы точно так же, как и функции, могут что-то возвращать, а могут ничего не возвращать. Методы строк всегда что-нибудь возвращают, потому что строки неизменяемые. 

Какие мы с вами рассмотрели:

- Удаляют лишние пробельные символы (возвращают строки):

        a.strip() # удалит все пробельные символы слева и справа. Можно в скобках передать свой символ или набор символов, он их все отрежет
        a.rstrip()
        a.lstrip() # соответственно удаляют только слева или справа
        
- Работают с индексированием, возвращают числа:

        a.find('x') # ищет х в строке, возвращает индекс первого слева, если не нашел - вернет -1
        a.rfind('x') # то же, но справа
        a.index('x') # вернет индекс х
        a.count('x') # подсчитает, сколько в строке встретилось х
        
- Работают с регистром, возвращают строки:

        a.upper() # ВЕРХНИЙ
        a.lower() # нижний
        a.capitalize() # Одно слово с заглавной
        a.title() # Каждое Слово С Заглавной
        
- Проверяют содержимое строки, возвращают bool (True/False):

        a.startswith('x')
        a.endswith('x')
        a.isdigit()
        a.isalpha()
        a.isalnum()
        a.isspace()
        a.istitle()
        a.islower()
        a.isupper()
        
Не метод, но логический оператор: проверка членства

    'x' in a  # in - оператор; такое выражение вернет True, если подстрока 'x' содержится в а. 
    
- Заменяет символы, возвращает строку:

        a.replace('что меняем', 'на что меняем')
        
- Возвращает список:

        a.split()  # бьет по пробелу на подстроки
        
- Склеивает элементы итерируемого объекта, перемежая их строкой:

        a.join(iterable)

In [5]:
' '.join('abcde')

'a b c d e'

А можно так:

In [6]:
' '.join(input().split())

 мама мыла раму


'мама мыла раму'

Тут что происходит? Сперва питон выполняет input(), считывает мое 'мама мыла раму', потом разделяет на подстроки 'мама', 'мыла', 'раму'. Это список: тоже итерируемый объект. Список потом склеивается с пробелом, к которому мы применяем метод join, и получается обратно наша строка. 

#### Кодировки

Буквы и вообще любые символы в компьютере представляются в виде чисел. Давно люди решили на кодировку букв человеческого алфавита выделить по байту на символ. Байт - единица информации, содержит в себе 8 битов. Бит - это минимальная единица информации, он может принимать значения либо 0, либо 1. Соответственно, если кодировать символы одним байтом, то получается, что один символ будет выглядеть как-нибудь так:

    11011011
    
Сколько можно закодировать так символов? Бит может принимать только два значения, а в байте их 8 штук. Значит, уникальных номеров будет:

In [7]:
2 ** 8

256

Маловато! В эти 256 символов влезают стандартные знаки пунктуации, цифры, латинский алфавит и еще немножко места остается для, например, кириллицы. 

Такая кодировка - однобайтовая - называется в общем смысле ASCII. Почитать про нее подробнее можно на Википедии. 128 символов в ней отведены под латинский алфавит, а остальные 128 могут занимать символы другого языка. Соответственно, в каждой почти стране кодировка своя, например, для русского языка есть варианты:

    cp1251
    cp1252
    koi-8
    ...
    
Их еще редко-редко можно увидеть в почте, когда скачиваете архивом приложения, почтовик может спросить, в какой кодировке качать. Также операционная система Windows (по крайней мере, до 10 версии включительно) работает в кодировке cp1251. Если вам интересно, кодировку на вашей системе можно проверить этим кодом:

In [8]:
import locale

locale.getpreferredencoding()

'UTF-8'

У меня utf-8, потому что у меня Линукс. 

Что же это за utf-8? 

Ну, очевидно, что с 256 символами было жить грустно (а как же китайцы?), поэтому люди решили не жмотиться и отвести под один символ сразу 4 байта. 4 байта = 32 бита, итого:

In [9]:
2 ** 32

4294967296

Вот этого уже на все алфавиты, включая марсианские, хватит! 

Общее название для четырехбайтовых кодировок - юникод (Unicode). Питон работает в юникоде! И поэтому поддерживает любые алфавиты (в отличие от, например, Java, в котором с ними довольно тяжело бороться, если ты живешь на Windows...). И даже эмодзи. 

У четырехбайтовых кодировок, однако, есть еще разновидности. В частности, кодировать четырьмя байтами латинский алфавит и супер-частотные пробелы и точки невыгодно: ведь размер текста будет увеличиваться в 4 раза! А занимать это место будут бесполезные ноли (первые три байта будут пустые потому что). 

Выход - самые частотные символы кодировать одним байтом, например, менее частотные - двумя, а редкие - четырьмя. Это кодировка utf-8. 

Другой вариант - это когда мы используем только 2 и 4 байта для кодирования и получаем utf-16. 

Ну а самый жирный и менее всего используемый - utf32. (Их можно писать с дефисом и без, если что). 

Так вот, и питон умеет превращать нам числа в буквы (считая, что число - это порядковый номер символа в юникоде) и наоборот. 

In [10]:
print(ord('a'))
print(chr(97))

97
a


Соответственно, функция ord() находит порядковый номер (в десятичной системе) для символа, а функция chr превращает номер в символ. 

#### Форматирование строк

Форматировать строки можно двумя (даже тремя, если считать устаревший способ форматирования питона 2) способами:

- f-strings: f'This is variable {a}'
- метод строк format: 'This is variable {}'.format(a)

Идейно они практически ничем не различаются. В фигурные скобки мы можем подставлять любые переменные, в f-строках явным образом прописывая их имена, а в методе format передавая аргументами. В format можно их еще нумеровать:

In [12]:
a = 1
b = 2
c = 3
'c: {2}, b: {1}, a: {0}'.format(a, b, c)

'c: 3, b: 2, a: 1'

Номера указывают, в каком порядке подставлять, а если не указать, то автоматически все подставится слева направо в том порядке, в каком указали. 

Форматированные строки на самом деле много чего клевого умеют. 

Во-первых, выравнивание текста:

In [13]:
f'{a:*<4}|{b:*>4}'

'1***|***2'

Что здесь что? Двоеточие внутри фигурных скобочек сообщает питону, что мы хотим задать какие-то параметры. Первый из символов - это fill: то, чем мы заполняем пространство, отведенное под эту переменную (я указала звездочку). Второй символ - собственно выравнивание (слева, справа, по центру). Последняя циферка - это сколько символов под это поле отводить. Посмотрим, как это будет работать в цикле:

In [15]:
for i in range(1, 100, 10):
    print(f'{i:*^7}')

***1***
**11***
**21***
**31***
**41***
**51***
**61***
**71***
**81***
**91***


Также можно, например, округлять числа прямо в форматированной строке:

In [18]:
from math import pi  # из библиотеки для математиков импортирую число пи

print(f'pi is {pi:.2f}')

pi is 3.14


здесь .2 означает, сколько знаков после запятой оставлять, а f означает, что мы хотим формат float (эти форматы разные бывают, попробуйте убрать букву f и посмотреть, что получится). 

Все те же самые штуки работают и с методом format, только тогда может быть так:

    '{:*<4}|{:*>4}'.format(a, b)
    
А еще можно задавать размер окна с помощью переменной:

In [19]:
print('{:*<{width}}|{:*>{width}}'.format(a, b, width=input()))  # да, так тоже можно! 

 6


1*****|*****2


## Циклы

На первом, по-моему, занятии мы с вами немного говорили про парадигмы программирования. Напомню самую простую, в которой мы с вами пока что и работаем: структурную. 

Структурное программирование - это когда мы свои программы разрабатываем сперва в виде алгоритмов (блок-схем), а потом уже пишем код. Что там в этих блок-схемах бывает? ромбики-ветвления и циклы. Ну например:

![блок-схема](block.png)

Здесь у нас есть и ветвление - если дошли до края или если не дошли - и цикл: пока не выполнится условие "дошли до края", будем кружиться и шагать. 

В питоне есть средства для реализации таких вот кружений: циклы. Их существует две разновидности. 

1. Цикл, который выполняется, пока выполняется какое-то условие: while
2. Цикл, который выполняется заранее известное количество раз: for

Итак, как устроен while?

In [None]:
a = input()       # считываем ввод пользователя
while a:          # если пользователь просто нажмет Enter, получится пустая строка в а, а bool('') - False. 
    print(a)      # выводим эхом в печать
    a = input()   # считываем следующее а. Если этой команды не будет, цикл будет бесконечным! Ведь а не меняется, а нужно, чтобы менялось

То есть, while после себя ожидает какой-то объект типа bool. Туда можно написать в принципе все, что угодно, но это все питон попытается вычислить и превратить в такой объект. Как и в if, удобно писать в while условные выражения (a < 0) или методы, которые возвращают объект bool (посмотрите, какие мы уже знаем для строк). 

Цикл for устроен чуточку сложнее:

In [20]:
for char in 'abcdef':   # мы можем передать любой итерируемый объект, будь то литерал или переменная
    print(char)

a
b
c
d
e
f


У цикла for есть *переменная цикла*: в примере это char. Что реально происходит на каждой итерации? Вот у нас есть строка из 6 символов. На первой итерации питон берет первый символ в строке и делает char = 'a'. Потом он делает все, что написано в теле цикла, и возвращается снова к началу. Теперь то же самое ему нужно проделать со вторым символом строки, и он делает char = 'b'. Таким образом, **переменная цикла меняется на каждой итерации**. Она не перестает существовать после выполнения цикла:

In [21]:
char

'f'

Но использовать ее вне цикла - дурной тон, потому что обычно вы заранее не знаете, что в ней может оказаться. 

С помощью цикла for можно еще итерироваться по индексам строк, а не напрямую по их символам:

In [None]:
a = 'qwerty'
for i in range(len(a)):
    print(a[i])

Для строк не имеет большой разницы, как именно мы итерируемся, а вот для список имеет и значительную, до этого еще дойдем. Обратите внимание здесь на две вещи:

Функция len() возвращает длину итерируемого объекта. У строк есть длина - количество их символов. Не заводите переменные с именем len, пожалуйста! Вы тогда перезапишете эту функцию и не сможете ей воспользоваться, а она одна из самых полезных. 

Функция range() работает примерно как срезы (range(start, stop, step)) и возвращает специальный объект типа range (диапазон). По нему можно итерироваться, например, ну и конструкция типа приведенной выше - супер-распространенная, она должна от зубов отлетать. 

У циклов есть и некоторые (необязательные) продолжения. Во-первых, есть два оператора, которые используются с циклами и if-else statements: break & continue. Что они делают?

In [22]:
a = input()
for char in a:
    if char == 'x':
        break
    print(char)

 qwertyxrtyui


q
w
e
r
t
y


break, как мы видим, - аварийная остановка цикла, она мгновенно выкидывает вас из цикла, игнорируя все, что после нее. Именно поэтому никакой else после break не нужен - он избыточный: если выполнится if, то нас просто выкинет и все остальное пофиг. 

In [23]:
a = input()
for char in a:
    if char == 'x':
        continue
    print(char)

 qwertyxyui


q
w
e
r
t
y
y
u
i


continue полностью из цикла не выкидывает, но игнорирует все команды, которые идут после него, и переводит сразу на следующую итерацию. 

Распространена следующая конструкция с while & break:

In [24]:
while True:
    a = input()
    if a == 'x':
        break
    print(a, end=' ')

 1


1 

 2


2 

 3


3 

 x


Таким образом можно избежать повторения команды input(), но условие с брейком рекомендуется писать как можно повыше. 

Еще у обоих этих циклов может быть else: он выполняется только один раз после того, как отработает весь цикл. Если мы совершим аварийную остановку с помощью break, else не выполнится, поэтому можно так проверять, не было ли брейков. 

In [25]:
for char in input():  # да, и так тоже можно, это питон
    if char == 'x':
        break
else:
    print('No breaks!')

 qwerty


No breaks!


## Исключения

Когда мы в коде делаем ошибки (или просто возникает какая-нибудь ошибка во время выполнения нашей программы - не обязательно потому, что мы такие дураки), питон выбрасывает исключения: те самые штуки, которые он выделяет багровым в выводе. 

In [26]:
a = int(input())

 w


ValueError: invalid literal for int() with base 10: 'w'

ValueError - это название исключения. Исключение - тоже своего рода break, только для всей программы разом, когда оно возникает, питон завершает программу и выводит его. В питоне есть встроенные типы исключений, многие из которых скоро намозолят вам глаза: SyntaxError, ValueError, IndexError и другие. Список есть в документации (погуглите exceptions). Эти исключения можно перехватывать таким образом, чтобы программа не вылетала вся сразу. Для этого используется конструкция try-except.

In [27]:
try:
    a = int(input())
except ValueError:
    print('a is not a number')

 w


a is not a number


try & except - обязательные части этой конструкции. После try просто ставим двоеточие и в теле пишем то, что пытаемся выполнить, а после except обычно пишется название исключения (исключения - это свои *объекты* в питоне, он их знает и поэтому не нужно брать их в кавычки) и какие-то действия, которые мы делаем, если исключение возникло. 

Есть и две необязательных части:

In [None]:
string = input()
try:
    print(string[4])
except IndexError:
    print('String too short')
else:
    print('String long enough')
finally:
    print('Script ended')

Что здесь и когда будет выполняться:

- try - всему голова, поэтому всегда
- except - если возникнет исключение
- else - если исключения не возникнет
- finally - в любом случае выполнится

Последние две вещи могут быть, а могут не быть, или может быть только какая-то одна из них. 

Про исключения немного подробнее поговорим в 3 семестре. 

## Сложность алгоритмов и Big O

Теперь, когда мы умеем в циклы, рассмотрим такую штуку:

In [None]:
from time import sleep  # импортирую функцию, которая заставляет компьютер ждать и ничего не делать, из библиотеки time

D = 10

for i in range(D):
    sleep(1)
print('Zzzz...')

В этом цикле есть некая переменная D, будем считать, что это объем обрабатываемых нами данных (мы ведь и правда проходимся по последовательности от 0 до 9 и на каждом шаге чего-то делаем). Наша программа работает ~ 10 секунд: по одной секунде на функцию sleep(1) и еще какая-то крошечная доля секунды на print(). Что будет, если мы в переменной D укажем не 10, а 100? Программа будет работать примерно 100 секунд. Соответственно, если мы хотим вычислить время работы нашей программы, нам пригодится примерно такая формула:

    Time = D * k + b 
    
где Time - время, D - размер обрабатываемой последовательности, k - время, которое уходит на обработку команды sleep(), а b - время, которое уходит на выполнение функции print() и оно не изменяется, ведь print(), сколько бы у нас ни было D, выполняется только один раз. 

Узнаем? Это уравнение прямой. То есть, время работы нашего алгоритма *линейно зависит* от объема данных. Про такой алгоритм говорят, что у него линейная сложность или что он выполняется за линейное время. У программистов есть для этого своя нотация:  Big O, и они пишут: O(n), то есть, для n данных программа будет работать k * n + b времени. 

Сложность алгоритма бывает и константная:

In [None]:
a = int(input())
b = int(input())
print(a + b)

Какие бы числа мы ни ввели, программа будет всегда отрабатывать примерно одинаковое количество времени. В Big O нотации пишут O(c). 

Ну и бывает сложность выше линейной, например, квадратичная:

In [None]:
D = 5

for i in range(D):
    for j in range(D):
        sleep(1)

Для D = 5 мы поспим 25 секунд, для D = 10 - 100 секунд и так далее. То есть, у нас $O(n^2)$. 

Конечно, этим виды сложности не ограничиваются, бывает, например, $O(log_n)$, $O(e^n)$ и другие. Логарифмическая - это получше, чем квадратичная, но похуже, чем линейная, например, а экспоненциальная самая ужасная, никогда так не делайте. В идеале нужно стремиться к тому, чтобы код работал с как можно меньшей сложностью (то есть, как можно быстрее). 

Питон, напомню вам, вообще не очень быстрый язык: это обусловлено его синтаксисом и высокоуровневостью. Самые быстрые языки - это ассемблер (супер-быстро), С тоже довольно быстрый, но они сложные для освоения. Тем важнее писать программы в питоне так, чтобы они не работали миллионы времени, если вы можете как-то упростить свой код, упрощайте его. 

Еще есть известный поиск баланса между "быстро - занимает много памяти": обычно вещи, которые работают быстрее, кушают больше оперативы, это очень наглядно будет видно, когда будем изучать нейронки (чем больше батчи, тем быстрее она учится, но можно случайно откушать столько памяти на видеокарте, что перезагрузится компьютер), но оператива - ограниченный ресурс. 