<a href="https://colab.research.google.com/github/sudlenia/Python-lections/blob/main/%D0%9B%D0%B5%D0%BA%D1%86%D0%B8%D1%8F_%E2%84%964_%D0%A1%D1%82%D1%80%D0%BE%D0%BA%D0%B8_%D0%B8_%D1%81%D0%BB%D0%BE%D0%B2%D0%B0%D1%80%D0%B8.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Строки

Чаще всего в программах приходится работать именно с текстом. Мы с вами уже знаем, как конкатенировать две строки с помощью оператора `+`, но возможности Python гораздо шире. Можно извлекать фрагменты строк, добавлять и удалять пробелы, преобразовывать буквы из нижнего регистра в верхний и обратно, а также проверять форматирование строк. Можно даже обратиться к буферу обмена для копирования и вставки текста.

**Строка** представляет последовательность символов в кодировке Unicode, заключенных в кавычки. Причем для определения строк Python позволяет использовать как одинарные, так и двойные кавычки.

## Строковые литералы

Строки в Python начинаются и заканчиваются одинарными кавычками. Но как быть, если кавычка стоит в самой строке? Вводить строки вида `'This is Alice's cat.'` нельзя, поскольку Python интерпретирует апостроф как закрывающую кавычку, и оставшаяся часть текста (`s cat.'`) будет воспринята как недопустимый код. К счастью, есть разные способы ввода строк.

## Двойные кавычки

Начало и конец строки можно обзначать не только одинарными, но и двойными кавычками. Преимущество двойных кавычек в том, что они позволяют трактовать одинарную кавычку как апостроф.

In [None]:
s = "This is Alice's cat."
s

"This is Alice's cat."

Поскольку строка начинается с двойной кавычки, Python считает одинарную кавычку апострофом в составе строки и не помечает оставшийся текст как ошибочный. Если же в строке нужны как одинарные, так и двойные кавычки, то необходимо прибегнуть к экранированию символов.

## Экранирование символов

Благодаря экранированию в строке можно использовать символы, вставить которые по-другому невозможно. *Экранированный символ* предваряется обратной косой чертой (\\), за которой следует сам символ, добавляемый в строку. Например, экранированная кавычка записывается так: `\'`. Её можно использовать даже в строке, которая начинается и заканчивается одинарной кавычкой.

In [None]:
s = 'This is Alice\'s cat.'
s

"This is Alice's cat."

Доступные экранированные символы представлены в таблице ниже:

|Экранированный символ|Отображаемый символ|
|:-:|:-|
| `\'` |Одинарная кавычка (апостроф)|
| `\"` |Двойная кавычка|
| `\t` |Табуляция|
| `\n` |Новая строка (разрыв строки)|
| `\\` |Обратная косая черта|

In [None]:
print("Hello there!\nHow are you?\nI\'m doing fine.")

Hello there!
How are you?
I'm doing fine.


## Необработанные строки

Хотя управляющие последовательности могут нам помочь в некоторых делах, например, поместить в строку кавычку, сделать табуляцию, перенос на другую строку. Но они также могут и мешать.

In [None]:
path = "C:\python\name.txt"
print(path)

C:\python
ame.txt


Здесь переменная path содержит некоторый путь к файлу. Однако внутри строки встречаются символы "\n", которые будут интерпретированы как управляющая последовательность.

Поместив символ `r` перед открывающейся кавычкой, можно пометить строку как *необработанную*. В такой строке экранирование полностью игнорируется, поэтому на экран выводятся все символы обратной косой черты, которые встречаются в строке.

In [None]:
path = r"C:\python\name.txt"
print(path)

C:\python\name.txt


In [None]:
print(r'That is Carol\'s cat.')

That is Carol\'s cat.


Поскольку это необработанная строка, Python считает все символы обратной косой черты ее частью, а не началом экранированного символа. Такая возможность удобна в тех случаях, когда вводятся строки, содержащие множество символов обратной косой черты, как, например, в файловых путях вида:

In [None]:
print(r'C:\Users\Andrey\Desktop')

C:\Users\Andrey\Desktop


## Многострочные текстовые блоки с тройными кавычками

Несмотря на то что в строку всегда можно добавить экранированный символ новой строки (\n), во многих случаях удобнее использовать многострочные блоки. В Python многострочный текст представляет собой группу строк, заключенных в тройные кавычки (три одинарные или три двойные). Любые кавычки, табуляции или символы новой строки в блоке, ограниченном тройными кавычками, считаются частью строки. Правила Python, регламентирующие форматирование блоков кода с помощью отступов в отношении многостроных блоков не действуют.



In [None]:
print('''Hello there!
How are you?
I'm doing fine.''')

Hello there!
How are you?
I'm doing fine.


Обратите внимание, что для апострофа в слове `I'm` не понадобилось экранирование. В многострочных блоках экранировать одинарные и двойные кавычки необязательно.

## Многострочные комментарии

Однострочный комментарий начинается с символа решетки (#) и длится до конца строки. Если требуется ввести многострочный комментарий, то для этого можно использовать текстовый блок.

In [None]:
"""
Это тестовая программа.
Функция вывода приветственного сообщения.
"""

def hello(name):
  """Это многострочный комментарий, объясняющий
  назначение функции hello()."""
  print(f'Привет, {name}!')

help(hello)

hello('Андрей')

Help on function hello in module __main__:

hello(name)
    Это многострочный комментарий, объясняющий
    назначение функции hello().

Привет, Андрей!


## Индексирование строк и извлечение срезов

**Срез** (slice) — извлечение из данной строки одного символа или некоторого фрагмента подстроки или подпоследовательности.

В случае строк операции индексирования и извлечения срезов выполняются точно так же, как и в случае списков. Например, строку `'Hello, world!'` можно рассматривать как список, в котором каждый символ имеет соответствующий индекс.

In [None]:
s = 'Hello, world!'
print(s[0])
print(s[4])
print(s[-1])
print(s[:5])
print(s[7:])

H
o
!
Hello
world!


Указав *индекс*, мы получаем символ, находящийся в соответствующей позиции строки. В случае диапазона индексов, т.е. среза, элемент с начальным индексом включается в срез, а элемент с конечным - нет.

Если задать срез с тремя параметрами, то третий параметр задает шаг.

In [None]:
'0123456789'[::2]

'02468'

In [None]:
'0123456789'[2:5:2]

'24'

Обратите внимание, что операция создания среза не сопровождается изменением исходной строки, а создает новую строку. Срез, извлеченный из одной переменной, можно сохранить в другой переменной.

In [None]:
ss = s[:5]
ss

'Hello'

Вспомним также, что в Python строки являются неизменяемыми объектами, их невозможно изменить. Можно лишь переменной, связанной со старой строкой, присвоить новую строку.

In [None]:
s

'hello, world!'

In [None]:
s[0] = 'H'

TypeError: ignored

Заметим, что в Python нет отдельного типа для символов строки. Каждый объект, который получается в результате среза — это тоже строка типа str.

## Операторы in и not in со строками

Операторы `in` и `not in` применяются к строкам точно так же, как и к спискам. Результатом операции будет булево значение `True` или `False`.

С помощью данных операторов мы можем проверить, содержится ли некоторая подстрока в строке (с учётом регистра).

In [None]:
'Hello' in 'Hello, world!'

True

In [None]:
'HELLO' in 'Hello, world!'

False

In [None]:
'cats' not in 'cats and dogs'

False

## Вставка строк в другие строки

В программах часто приходится вставлять строки в другие строки. До сих пор мы применяли для этого `оператор +`, выполняющий конкатенацию строк.

In [None]:
name = 'Андрей'
age = 20
'Меня зовут ' + name + '. Мне ' + str(age) + ' лет.'

'Меня зовут Андрей. Мне 20 лет.'

Такой подход немного утомителен. Более простой способ - *строковая интерполяция* (подстановка), при которой оператор `%s` внутри строки действует как маркер, который следует заменить значениями, указанными после строки. Одно из преимуществ интерполяции заключается в том, что нет необходимости вызывать функцию `str()` для преобразования чисел в строки.

Синтаксис: `строка % (параметр1, параметр2, ..., параметрN)`

In [None]:
'Меня зовут %s. Мне %s лет.' % (name, age)

'Меня зовут Андрей. Мне 20 лет.'

Для форматирования мы можем использовать следующие подстановки:
* s: для вставки строк
* d: для вставки целых чисел
* f: для вставки дробных чисел. Для этого типа также можно определить через точку количество знаков в дробной части.
* e: выводит число в экспоненциальной записи

In [None]:
info = "Имя: %s \t Возраст: %d" % ("Андрей", 20)
print(info)

Имя: Андрей 	 Возраст: 20


In [None]:
number = 23.8589578
print("%0.2f - %e" % (number, number))

23.86 - 2.385896e+01


В Python 3.6 появились *f-строки*, имеющие аналогичное назначение, за исключением того, что вместо оператора `%s` в строку включаются выражения в фигурных скобках. Подобно необработанным строкам, *f-строки* предваряются префиксом `f` перед открывающей кавычкой.

In [None]:
f'Меня зовут {name}. Мне {age} лет.'

'Меня зовут Андрей. Мне 20 лет.'

## Методы для работы со строками

Строки представляют собой пример объектов языка Python. Объект содержит данные (сами строки) и методы – эффективные функции, встроенные в объект и доступные любому экземпляру этого объекта.

Существует целый ряд методов, позволяющих анализировать строки и выполнять над ними различные преобразования.

### Методы upper(), lower(), isupper(), islower()

Методы `upper()` и `lower()` возвращают новую строку, в которой все буквы исходной строки преобразованы соответственно в верхний или нижний регистр. Небуквенные символы не затрагиваются.

In [None]:
s

'Hello, world!'

In [None]:
s = s.upper()
s

'HELLO, WORLD!'

In [None]:
s = s.lower()
s

'hello, world!'

Обратите внимание, что эти методы возвращают новые строковые значения, не изменяя исходную строку. Чтобы изменить саму строку, необходимо вызвать для нее метод `upper()` или `lower()` и присвоить результат той же переменной, в которой хранилась исходная строка.

Методы `upper()` и `lower()` удобно применять в тех случаях, когда при сравнении строк не должен учитываться регистр букв. Строки 'отлично' и 'Отлично' считаются разными. Но в приведенном ниже примере не имеет значение, как именно будет введено это слово - 'Отлично', 'ОТЛИЧНО' или 'отЛИЧНО', - поскольку строка предварительно переводится в нижний регистр.

In [None]:
feeling = input('Как дела?\n')
if feeling.lower() == 'отлично':
  print('Я тоже чувствую себя отлично.')
else:
  print('Я надеюсь, что остаток дня будет лучше.')

Как дела?
ОтЛиЧнО
Я тоже чувствую себя отлично.


Добавляя в программу код, нивелирующий различия в написании слов и игнорирующий ошибки, связанные с неправильным использованием регистра букв, мы упрощаем работу с ней и уменьшаем вероятность ее аварийного завершения из-за ошибок, допущенных пользователем при вводе текста.

Методы `isupper()` и `islower()` возвращают булево значение `True`, если в строке имеется хотя бы одна буква и все буквы записаны соответственно в верхнем или нижнем регистре. В противном случае возвращается значение `False`.

In [None]:
'ПРИВЕТ'.isupper()

True

In [None]:
'abc12345'.islower()

True

In [None]:
'12345'.isupper()

False

In [None]:
'12345'.islower()

False

Поскольку методы `upper()` и `lower()` сами возвращают строки, для этих строк тоже можно вызвать строковые методы. Соответствующие выражения выглядят как цепочки вызовов.

In [None]:
'Привет'.upper().lower()

'привет'

In [None]:
'ПРИВЕТ'.lower().islower()

True

### Строковы методы isX()

Наряду с методами `isupper()` и `islower()` существует ряд других строковых методов, имена которых начинаются со слова `'is'`. Методы этой группы возвращают булево значение, соответствующее определенной характеристике строки.
В таблице ниже приведен перечень наиболее популярных методов группы `'isX'`.

|Метод|Описание|
|:-|:-|
|isalpha()|возвращает True, если строка непустая и состоит только из букв.|
|isalnum()|возвращает True, если строка непустая и состоит только из буквенно-цифровых символов.|
|isdecimal()|возвращает True, если строка непустая и состоит только из цифр.|
|isspace()|возвращает True, если строка непустая и состоит только из символов пробела, табуляции и новой строки.|
|istitle()|возвращает True, если строка непустая и состоит только из слов, в которых все буквы строчные, кроме первой.|

In [None]:
'Привет'.isalpha()

True

In [None]:
'Привет123'.isalpha()

False

In [None]:
'Привет!'.isalnum()

False

In [None]:
'123'.isdecimal()

True

In [None]:
'   \n\t'.isspace()

True

In [None]:
'Это Строка Заголовка'.istitle()

True

In [None]:
'Это не Строка Заголовка'.istitle()

False

Такие методы удобно применять для проверки допустимости введенных пользователем значений. Например, приведенная ниже программа повторяет запрос до тех пор, пока пользователь не введет корректный возраст и пароль.

In [None]:
while True:
  age = input('Сколько Вам лет? ')
  if age.isdecimal():
    break
  print('Пожалуйста, введите число.')

while True:
  password = input('Выберите пароль (только буквы и цифры): ')
  if password.isalnum():
    break
  print('Пароли могут состоять только из букв и цифр.')

Сколько Вам лет? 20
Выберите пароль (только буквы и цифры): 123*
Пароли могут состоять только из букв и цифр.
Выберите пароль (только буквы и цифры): 123anr


### Методы startswith() и endswith()

Методы `startswith()` и `endswith()` возвращают `True`, если строка, для которой они вызываются, соответственно начинается или заканчивается строкой, переданной методу. В противном случае возвращается значение `False`.

In [None]:
'Привет, мир!'.startswith('Привет')

True

In [None]:
'Привет, мир!'.endswith('мир!')

True

In [None]:
'abc123'.endswith('12')

False

Эти методы - полезная альтернатива оператору сравнения `==`, если сравнение с другой строкой требуется выполнить не для всей исходной строки, а только для первой или последней ее части.

### Методы join() и split()

Метод `join()` удобно использовать в тех случаях, когда несколько строк, представленных в виде списка, необходимо объединить в одну строку. Этот метод вызывается для строки, которая используется в качестве разделителя. Он получает список строк в качестве аргумента и возвращает объединенную строку.

In [None]:
', '.join(['яблоко', 'апельсин', 'виноград'])

'яблоко, апельсин, виноград'

Обратите внимание, что строка, для которой вызывается метод `join()`, вставляется между элементами списка.

Метод `split()` имеет противоположное назначение: он вызывается для строки и разбивает ее на список слов.

In [None]:
'1\n2 3\t 4'.split()

['1', '2', '3', '4']

По умолчанию метод `split()` использует для разбиения в качестве разделителей пробельные символы: пробел, табуляция или символ новой строки. Сами эти символы не включаются в строки, возвращаемые в виде списка. Можно явным образом указать и другой разделитель.

In [None]:
'1,2,3,4,5'.split(',')

['1', '2', '3', '4', '5']

### Разбиение строк с помощью метода partition()

Строковый метод `partition()` разбивает строку на текст, стоящий до и после разделителя. Этот метод находит в строке, для которой вызывается, строку-разделитель, которая передается в качестве аргумента, и возвращает кортеж из трех подстрок: до разделителя, сам разделитель и после разделителя.

In [None]:
'Привет, мир!'.partition('мир')

('Привет, ', 'мир', '!')

Если строка-разделитель встречается в исходной строке несколько раз, то данный метод разбивает строку только на первом разделителе.

In [None]:
'Привет, мир!'.partition('р')

('П', 'р', 'ивет, мир!')

Если строка-разделитель не найдена, то первым элементом возвращаемого кортежа будет исходная строка, а два других элемента будут пустыми.

In [None]:
'Привет, мир!'.partition('абв')

('Привет, мир!', '', '')

С помощью операции множественного присваивания можно записать три возвращаемые строки в три переменные:

In [None]:
before, sep, after = 'Привет, мир!'.partition(' ')
before, after

('Привет,', 'мир!')

### Выравнивание текста с помощью методов rjust(), ljust() и center()

Строковые методы `rjust()` и `ljust()` возвращают версию строки, для которой они вызываются, выровненную за счет вставки пробелов. В обоих методах первый аргумент - целое число, определяющее длину выровненной строки.

In [None]:
'Привет'.rjust(15)

'         Привет'

In [None]:
'Привет'.ljust(15)

'Привет         '

Первое выражение с методом `rjust()` означает, что необходимо выровнять строку `'Привет'` вправо в пределах 15 символов. В слове `'Привет'` насчитывается 6 символов, поэтому слева от него будет добавлено 9 пробелов, в результате чего общая длина строки составит 15 символов. Аналогичным образом работает метод `ljust()`.

Необязательный второй аргумент в обоих методах задает символ-заполнитель, отличающийся от пробела.

In [None]:
'Привет'.rjust(15, '*')

'*********Привет'

Метод `center()` работает аналогично методам `rjust()` и `ljust()`, но центрирует текст, а не выравнивает его по правому или левому краю.

In [None]:
'Привет'.center(16, '~')

'~~~~~Привет~~~~~'

Эти методы особенно полезны в ситуациях, когда необходимо вывести табулированные значения.

In [None]:
def printPicnic(itemsDict, leftWidth, rightWidth):
  print('Набор для пикника'.center(leftWidth + rightWidth, '-'))
  for k, v in itemsDict.items():
   print(k.ljust(leftWidth, '.') + str(v).rjust(rightWidth))

picnicItems = {'сэндвичи': 4, 'яблоки': 12, 'чашки': 4, 'печенье': 15}
printPicnic(picnicItems, 12, 5)
printPicnic(picnicItems, 20, 6)

Набор для пикника
сэндвичи....    4
яблоки......   12
чашки.......    4
печенье.....   15
----Набор для пикника-----
сэндвичи............     4
яблоки..............    12
чашки...............     4
печенье.............    15


Таким образом, используя методы `rjust()`, `ljust()` и `center()`, мы можем быть уверенными в том, что колонки таблицы аккуратно выравниваются, даже если точное количество символов, содержащихся в каждой строке, неизвестно.

### Удаление пробелов с помощью методов strip(), rstrip() и lstrip()

Иногда возникает необходимость удалить из строки ведущие и/или замыкающие пробельные символы (пробелы, табуляции, символы новой строки). Метод `strip()` возвращает новую строку без начальных и конечных пробельных символов. Методы `lstrip()` и `rstrip()` удаляют пробельные символы соответственно в начале и в конце строки.

In [None]:
'     Привет   \n  \t'.strip()

'Привет'

In [None]:
'     Привет   \n  \t'.lstrip()

'Привет   \n  \t'

In [None]:
'     Привет   \n  \t'.rstrip()

'     Привет'

С помощью необязательного строкового аргумента можно указать, какие именно символы должны удаляться с обоих концов строки.

In [None]:
'abcdefg'.strip('ga')

'bcdef'

Передавая в данном случае методу `strip()` аргумент `ga`, мы сообщаем ему, что в начале и в конце строки должны быть удалены все вхождения символов `g` и `a`. Порядок символов в строке, передаваемой методу `strip()`, **не важен**.

### Поиск в строке: методы find() и rfind()

Метод `find()` находит в данной строке (к которой применяется метод) данную подстроку (которая передается в качестве параметра). Функция возвращает индекс первого вхождения искомой подстроки. Если же подстрока не найдена, то метод возвращает значение -1.

In [None]:
'Hello'.find('l')

2

In [None]:
'Hello'.find('h')

-1

Аналогичным образом, метод `rfind()` возвращает индекс последнего вхождения данной строки (“поиск справа”).

In [None]:
'Hello'.rfind('l')

3

Если для строки `S` вызвать метод `find()` с тремя параметрами `S.find(T, a, b)`, то поиск будет осуществляться в срезе `S[a:b]`. Если указать только два параметра `S.find(T, a)`, то поиск будет осуществляться в срезе `S[a:]`, то есть начиная с символа с индексом `a` и до конца строки. Метод `S.find(T, a, b)` возращает индекс в строке `S`, а не индекс относительно среза.

In [None]:
'abcabcabc'.find('abc', 3)

3

### Метод replace()

Метод `replace()` заменяет все вхождения одной строки на другую.

Формат: `S.replace(old, new)` — заменить в строке `S` все вхождения подстроки `old` на подстроку `new`.

In [None]:
'Hello'.replace('l', 'L')

'HeLLo'

Если методу `replace()` задать еще один параметр: `S.replace(old, new, count)`, то заменены будут не все вхождения, а только не больше, чем первые `count` из них.

In [None]:
'abcabcabcabc'.replace('abc', 'xyz', 2)

'xyzxyzabcabc'

### Метод count()

Метод `count()` подсчитывает количество вхождений одной строки в другую строку. Простейшая форма вызова `S.count(T)`  возвращает число вхождений строки `T` внутри строки `S`. При этом подсчитываются только непересекающиеся вхождения.

In [None]:
('a' * 10).count('aa')

5

При указании трех параметров `S.count(T, a, b)`, будет выполнен подсчет числа вхождений строки `T` в срезе `S[a:b]`.

### Получение числовых значений символов с помощью функций ord() и chr()

Компьютеры хранят информацию в виде байтов, т.е. двоичных чисел, поэтому важно иметь возможность преобразовать текст в числа. Каждому текстовому символу соответствует числовое значение, называемое *кодом Unicode*. Например, символу `A` соответствует код 65, а символу `4` - код 52, а символу `!` - код 33. С помощью функции `ord()` можно узнать код символа, а с помощью функции `chr()` - символ, соответствующий целочисленному коду.

In [None]:
ord('A')

65

In [None]:
chr(100)

'd'

Эти функции могут быть полезны, когда необходимо сравнить символы или выполнить математические операции над ними.

In [None]:
ord('A') < ord('B')

True

In [None]:
chr(ord('A') + 3)

'D'

## Сравнение строк

При сравнении строк принимается во внимание символы и их регистр. Так, цифровой символ условно меньше, чем любой алфавитный символ. Алфавитный символ в верхнем регистре условно меньше, чем алфавитные символы в нижнем регистре.

In [None]:
str1 = "1a"
str2 = "ab"
str3 = "Ab"
print(str1 > str2)  # False, так как первый символ в str1 - цифра
print(str2 > str3)  # True, так как первый символ в str2 - в нижнем регистре

False
True


Поэтому строка "1a" условно меньше, чем строка "ab". Вначале сравнение идет по первому символу. Если начальные символы обоих строк представляют цифры, то меньшей считается меньшая цифра, например, "1a" меньше, чем "2a".

Если начальные символы представляют алфавитные символы в одном и том же регистре, то смотрят по алфавиту. Так, "aa" меньше, чем "ba", а "ba" меньше, чем "ca".

Если первые символы одинаковые, в расчет берутся вторые символы при их наличии.

Зависимость от регистра не всегда желательна, так как, по сути, мы имеем дело с одинаковыми строками. В этом случае перед сравнением мы можем привести обе строки к одному из регистров.


## Синтаксический разбор (парсинг) строк

Часто необходимо рассмотреть некоторую строку и найти в ней определенную подстроку. Например, если бы нам предоставили последовательность строк, отформатированных следующим образом:
```
От agfeldman@sfu-kras.ru Пятница, 7 июля 2023, 16:30
```

и при этом требуется извлечь только вторую часть адреса (т.е. sfu-kras.ru) из каждой строки, то мы можем сделать это, используя метод `find()` и срез из строки.
Сначала найдем позицию символа «собака» (@) в строке. Затем найдем позицию первого пробела после символа @. Далее воспользуемся операцией среза для извлечения той части строки, которую мы ищем.

In [None]:
data = ' agfeldman@sfu-kras.ru Пятница, 7 июля 2023, 16:30'
atpos = data.find('@')
print(atpos)

sppos = data.find(' ',atpos)
print(sppos)

host = data[atpos+1: sppos]
print(host)

10
22
sfu-kras.ru


Мы используем версию метода `find()`, позволяющую задать позицию в строке, с которой необходимо начать поиск. При выполнении вырезки мы извлекаем символы, начиная «со следующего за символом @ и до первого найденного пробельного символа, не включая этот символ».

# Словари

Подобно списку, *словарь* - изменяемая коллекция значений. Однако в словарях, в отличие от списков, индексами могут быть не только целые числа, но и другие типы данных. Индексы в словарях называются *ключами*, а ключ вместе с соответствующим ему значением - *парой "ключ - значение"*.

**Словарь** — структура данных, хранящая информацию в виде набора записей - пар “ключ-значение”.

**Ключи** в словаре должны быть уникальными. Уникальность ключей в словаре обеспечивает обращение к конкретному элементу словаря (как обращение по индексу в списках и строках.

В Python словари обозначаются фигурными скобками ({}).

In [None]:
myCat = {'размер': 'толстый', 'цвет': 'серый', 'характер': 'шумный'}

В примере выше переменной `myCat` присваивается словарь. Ключами в нем служат строки 'размер', 'цвет' и 'характер', а значениями - строки 'толстый', 'серый', и 'шумный' соответственно. Доступ к значениям осуществляется с помощью ключей.

In [None]:
myCat['размер']

'толстый'

In [None]:
'У моего кота ' + myCat['цвет'] + ' мех.'

'У моего кота серый мех.'

Индексами в словарях, как и в списках, могут быть целые числа, однако их отсчет необязательно должен начинаться с нуля. Кроме того, это могут быть любые числа.

## Сравнение словарей и списков

В отличие от списков, в словарях элементы неупорядочены. К словарям понятие "первый элемент" неприменимо. Порядок элементов важен при проверке идентичности двух списков, но для словарей не имеет значения, в каком порядке в них были включены пары "ключ-значение".

In [None]:
a = [1, 2, 3]
b = [1, 3, 2]
a == b

False

In [None]:
c = [1, 2, 3]
a == c

True

In [None]:
myCat

{'размер': 'толстый', 'цвет': 'серый', 'характер': 'шумный'}

In [None]:
myCat2 = {'размер': 'толстый', 'характер': 'шумный', 'цвет': 'серый'}
myCat == myCat2

True

Поскольку словари неупорядочены, для них нельзя создавать срезы, в отличие от списков.

При попытке обратиться к ключу, отсутствующему в словаре, будет сгенерировано исключение `KeyError`, напоминающее исключение `IndexError`, которое возникает при выходе за пределы допустимого диапазона индексов в списке.

In [None]:
myCat['глаза']

KeyError: ignored

Несмотря на то что словари неупорядочены, возможность извлечь произвольное значение по его ключу делает их очень удобными структурами. Предположим, что в программе необходимо хранить данные о днях рождения ваших друзей. Для этой цели вполне подойдет словарь, в котором ключами будут имена друзей, а значениями - даты их рождения.

In [None]:
birthdays = {'Андрей': '8 августа', 'Иван': '12 декабря', 'Марина': '4 марта'}

while True:
  print('Введите имя: (<Enter> для выхода)')
  name = input()
  if name == '':
    break

  if name in birthdays:
    print(birthdays[name] + ' день рождения - ' + name)
  else:
    print('Я не знаю, когда день рождения у ' + name)
    print('Когда день рождения у этого человека?')
    bday = input()
    birthdays[name] = bday
    print('Обновлена информация о днях рождения.')

Введите имя: (<Enter> для выхода)
Игорь
Я не знаю, когда день рождения у Игорь
Когда день рождения у этого человека?
2 июля
Обновлена информация о днях рождения.
Введите имя: (<Enter> для выхода)



In [None]:
birthdays['Марина']

'4 марта'

In [None]:
'Игорь' in birthdays

True

In [None]:
birthdays['Игорь']

'2 июля'

### Методы keys(), values() и items()

Для работы со словарями предусмотрены методы `keys()`, `values()` и `items()`, которые возвращают соответственно ключи, значения и пары "ключ-значение". Возвращаемые этими методами коллекции не являются списками: их нельзя изменять и у них нет метода `append()`. В то же время эти типы данных (`dict_keys` и `dict_values` и `dict_items` соответственно) можно использовать в циклах for.

In [None]:
birthdays.keys()

dict_keys(['Андрей', 'Иван', 'Марина', 'Игорь'])

In [None]:
birthdays.values()

dict_values(['8 августа', '12 декабря', '4 марта', '2 июля'])

In [None]:
birthdays.items()

dict_items([('Андрей', '8 августа'), ('Иван', '12 декабря'), ('Марина', '4 марта'), ('Игорь', '2 июля')])

Обратите внимание, что значения типа `dict_items`, возвращаемые методом `items()`, представляют собой кортежи, образуемые ключами и связанными с ними значениями словаря.

Если необходимо получить результат в виде списка, передайте функции `list()` значение, возвращаемое любым из этих трёх методов.

In [None]:
list(birthdays.items())

[('Андрей', '8 августа'),
 ('Иван', '12 декабря'),
 ('Марина', '4 марта'),
 ('Игорь', '2 июля')]

Кроме того, можно воспользоваться групповым присваиванием в `цикле for` для присваивания ключей и связанных с ними значений отдельным переменным.

In [None]:
for k, v in birthdays.items():
  print(f'{k} празднует свой День Рождения {v}.')

Андрей празднует свой День Рождения 8 августа.
Иван празднует свой День Рождения 12 декабря.
Марина празднует свой День Рождения 4 марта.
Игорь празднует свой День Рождения 2 июля.


## Метод get()

Для того, чтобы не проверять каждый раз наличие ключа в словаре перед обращением к нему, можно воспользоваться методом `get()`. Метод `get()` имеет два аргумента: ключ извлекаемого значения и значение по умолчанию, возвращаемое в случае отсутствия данного ключа в словаре.

In [None]:
picnicItems = {'яблоки': 5, 'чашки': 2}
'Я несу ' + str(picnicItems.get('тарелки', 0)) + ' тарелки'

'Я несу 0 тарелки'

In [None]:
'Я несу ' + str(picnicItems.get('чашки', 0)) + ' чашки'

'Я несу 2 чашки'

Без использования метода `get()` в случае получения значения по отсутствующему ключу будет сгенерировано исключение.

In [None]:
picnicItems['вилки']

KeyError: ignored

## Метод setdefault()

Зачастую нужно установить значение для определенного ключа лишь в случае, если этому ключу еще не присвоено значение.

In [None]:
picnicItems

{'яблоки': 5, 'чашки': 2}

In [None]:
if 'вилки' not in picnicItems:
  picnicItems['вилки'] = 5

С помощью метода `setdefault()` то же самое можно сделать в одной строке кода. У данного метода есть два аргумента: первый - проверяемый ключ, второй - устанавливаемое значение для ключа в случае его отсутствия в словаре. Если же ключ существует, данный метод возвращает его значение.

In [None]:
picnicItems.setdefault('ложки', 7)
picnicItems

{'яблоки': 5, 'чашки': 2, 'вилки': 5, 'ложки': 7}

In [None]:
picnicItems.setdefault('ложки', 10)

7

Метод `setdefault()` удобно использовать тогда, когда необходимо гарантировать наличие ключа.

Рассмотрим пример, в котором подсчитывается, сколько раз в строке встречается каждая из входящих в нее букв.

In [None]:
message = "Словарь — набор пар “ключ-значение”."
count = {}

for character in message:
  count.setdefault(character, 0)
  count[character] += 1
print(count)

{'С': 1, 'л': 2, 'о': 2, 'в': 1, 'а': 4, 'р': 3, 'ь': 1, ' ': 4, '—': 1, 'н': 3, 'б': 1, 'п': 1, '“': 1, 'к': 1, 'ю': 1, 'ч': 2, '-': 1, 'з': 1, 'е': 2, 'и': 1, '”': 1, '.': 1}


Данная программа циклически перебирает все символы строки и подсчитывает, как часто встречается каждый из них. Вызов метода `setdefault()` гарантирует существование ключа в словаре (значение которого по умолчанию равно 0), поэтому при выполнении инструкции `count[character] += 1` ошибка `KeyError` возникать не будет.

## Красивый вывод

Импортировав модуль `pprint`, мы получим доступ к функциям `pprint()` и `pformat()`, которые обеспечивают красивый вывод значений словаря. Это может понадобиться, если необходимо расширить возможности функции `print()`.

Произведем вывод результата подсчёта частоты встречаемости букв в строке для нашего прошлого примера с помощью модуля `pprint`:

In [None]:
import pprint
pprint.pprint(count)

{' ': 4,
 '-': 1,
 '.': 1,
 'С': 1,
 'а': 4,
 'б': 1,
 'в': 1,
 'е': 2,
 'з': 1,
 'и': 1,
 'к': 1,
 'л': 2,
 'н': 3,
 'о': 2,
 'п': 1,
 'р': 3,
 'ч': 2,
 'ь': 1,
 'ю': 1,
 '—': 1,
 '“': 1,
 '”': 1}


На этот раз результат выглядит намного аккуратнее и к тому же отсортирован по ключам.

Функция `pprint.pprint()` особенно полезна в тех случаях, когда словарь содержит вложенные списки или словари.

Если нужно получить аккуратно оформленный текст в виде строки, а не выводить его на экран, то воспользуйтесь функцией `pprint.pformat()`.

In [None]:
pprint.pformat(count)

"{' ': 4,\n '-': 1,\n '.': 1,\n 'С': 1,\n 'а': 4,\n 'б': 1,\n 'в': 1,\n 'е': 2,\n 'з': 1,\n 'и': 1,\n 'к': 1,\n 'л': 2,\n 'н': 3,\n 'о': 2,\n 'п': 1,\n 'р': 3,\n 'ч': 2,\n 'ь': 1,\n 'ю': 1,\n '—': 1,\n '“': 1,\n '”': 1}"

## Множества

**Множества (set)** представляют еще один вид набора данных, который хранит только уникальные элементы. Для определения множества используются фигурные скобки, в которых перечисляются элементы:

In [None]:
fruits = {"яблоко", "банан", "яблоко", "апельсин"}
print(fruits)

{'апельсин', 'яблоко', 'банан'}


Обратите внимание, что несмотря на то, что функция `print()` вывела один раз элемент `"яблоко"`, хотя в определении множества этот элемент содержится два раза. Все потому что множество содержит только уникальные значения.

Также для определения множества может применяться функция `set()`, в которую передается список или кортеж элементов:

In [None]:
people = ["Андрей", "Илья", "Ольга"]
users = set(people)
print(users)

{'Ольга', 'Андрей', 'Илья'}


Для получения кол-ва элементов множества применяется встроенная функция `len()`:

In [None]:
len(users)

3

Функцию `set()` удобно применять для создания пустого множества:

In [None]:
students = set()
students

set()

В качестве самостоятельной работы ознакомьтесь с операциями над множествами, перейдя по [ссылке](https://metanit.com/python/tutorial/3.4.php).

# Подведем итог

Символьная строка - это последовательность символов, расположенных в памяти рядом (в соседних ячейках). Строка в языке Python - это неизменяемый объект. В Python имеется множество полезных методов, предназначенных для работы с текстом и строковыми переменными. Для работы с частями строк применяют срезы. Сравнение строк происходит посимвольно с использованием таблицы кодов символов.

Списки и словари - это изменяемые типы данных, которые могут содеражть множество значений, включая другие списки и словари. Словари удобны тем, что позволяют сопоставлять одни элементы (ключи) с другими (значения), в отличие от списков, которые просто содержат упорядоченные последовательности значений. Доступ к элементам словаря осуществляется посредством квадратных скобок как и в случае списков. Но вместо целочисленных индексов в словарях допускается использование ключей самых разных **неизменяемых** типов: целых и вещественных чисел, строк и даже кортежей.

Множества представляют еще один вид набора данных, который хранит только уникальные элементы.

# Контрольные вопросы

1. Что такое строка?
2. Что такое экранированные символы?
3. Что означают экранированные символы `\n` и `\t`?
4. Как вставить обратную косую черту (\) в строку?
5. Строка `"Howl's Moving Castle"` вполне допустима. Почему она не вызовет ошибку, несмотря на наличие неэкранированного апострофа в слове `"Howl's"`?
6. Как можно написать многострочный текст без использования символов `\n`?
7. Чему равны следующие выражения:
* `"Здравствуй, мир!"[1]`
* `"Здравствуй, мир!"[0:5]`
* `"Здравствуй, мир!"[:5]`
* `"Здравствуй, мир!"[3:]`
8. Способы форматирования строк.
9. Чему равны следующие выражения?
* `"Здравствуй".upper()`
* `"Здравствуй".upper().isupper()`
* `"Здравствуй".upper().lower()`
10. Чему равны следующие выражения?
* `'Привет123'.isalpha()`
* `'Привет123'.isalnum()`
* `'Привет!'.isalnum()`
* `'123'.isdecimal()`
* `'   \n\t'.isspace()`
* `'Это cтрока Заголовка'.istitle()`
11. Как можно проверить, начинается ли строка `"Мама мыла раму"` со слова "Мама" и оканчивается ли словом `"раму"`?
12. Чему равны следующие выражения?
* `"Строка - набор символов, заключенных в кавычки".split(" ", 3)`
* `'-'.join('Должен остаться только один.'.split())`
13. Какие методы применяются для выравнивания строки по правому краю, по левому краю и по центру?
14. Как удалить пробельные символы в начале или в конце строки?
15. Как найти индекс первого вхождения подстроки в строку? Последнего вхождения?
16. Как узнать, сколько раз подстрока содержится в строке?
17. Как заменить первые 2 вхождения одной подстроки на другую?
18. Как происходит сравнение строк между собой? Сравните следующие строки:
* `"abc" > "abd"`
* `"ABC" == "abc"`
* `"Abc" < "abc"`
* `"abc" < "abcd"`

# Дополнительные вопросы

1. Что такое словарь? Могут ли быть ключами словаря изменяемые типы данных?
2. Как выглядит пустой словарь? Способы его создания.
3. Можно ли обратиться к элементам словаря по индексу? Как вы думаете, почему сделано именно так?
4. Как получить значение элемента словаря?
5. Как получить список всех ключей словаря? Всех значений словаря?
6. Как перебрать все пары "ключ-значение"?
7. В чем основная разница между словарем и списком?
8. Что произойдет при попытке получить доступ к элементу `fruits['яблоко']`, если `fruits` - это словарь вида `{'банан': 5}`?
9. Если в переменной `fruits` хранится словарь, то в чем разница между выражениями `'яблоко' in fruits` и `'яблоко' in fruits.keys()`?
10. Если в переменной `fruits` хранится словарь, то в чем разница между выражениями `'яблоко' in fruits` и `'яблоко' in fruits.values()`?
11. Как можно короче записать приведенный ниже код?
```
if 'яблоко' in fruits`:
      print(fruits['яблоко'])
else:
      print('Такого фрукта нет.')
```
12. Как можно короче записать приведенный ниже код?
```
if 'яблоко' not in fruits`:
      fruits['яблоко'] = 8
```
13. Какую функцию можно использовать для "красивого вывода" значений словаря?
14. Что такое множество? Способы определения множества.
15. Добавление, удаление и перебор элементов множества.
16. Операции с множествами: объединение, пересечение и разность.
17. Отношения между множествами: подмножество и надмножество.
18. Тип `frozen set`.
19. Результат работы следующей программы:
```
set1 = { 5, 10, 20, 35}
set2 = {20, 25, 35}
set3 = set1.union(set2)
print(set3)
```
20. Результат работы следующей программы:
```
set1 = { 5, 10, 20, 30}
set2 = {20, 25, 35}
set1.intersection_update(set2)
print(set1)
```
21. Результат работы следующей программы:
```
a = {1, 2, 3}
b = {1, 2, 3}
print(a + b)
```