Тема урока: сравнение строк

В Python мы можем сравнивать с помощью операторов ==, !=, <, <=, > и >= не только числа, но и строки. В отличие от чисел, сравнение строк происходит на основе лексикографического порядка – в соответствии с кодами составляющих их символов в таблице Unicode.

Сравнение строк единичной длины

Начнем с примера сравнения строк, состоящих из одного символа. В Python это сравнение происходит путем сравнения кодов этих символов в таблице Unicode.

In [2]:
print('a' > 'b')
print('a' < 'z')

False
True


Действительно, код символа a в таблице Unicode равен числу 
97, а символа b – числу 
98. Число 
97 меньше числа 
98, поэтому и символ a меньше символа b. Аналогично символ z больше символа a, потому что код символа z (число 
122) больше кода символа a (число 
97).

Предыдущий код полностью эквивалентен следующему коду:

In [3]:
print(ord('a') > ord('b'))
print(ord('a') < ord('z'))

False
True


Обратите внимание, что буквы в нижнем регистре всегда больше своих аналогов в верхнем регистре. Для букв русского алфавита это правило также работает.

In [4]:
print('d' > 'D')
print('Ы' < 'ы')

True
True


Ничего удивительного в этом нет, потому что буквы в нижнем регистре идут после букв в верхнем регистре в таблице Unicode.

 Обычно на практике достаточно оперировать таблицей ASCII, которая является подмножеством таблицы Unicode. Первые 128 символов таблицы Unicode совпадают с таблицей ASCII.

Сравнение строк не единичной длины

Обычно мы работаем не с отдельными символами, а со строками, которые состоят из нескольких символов сразу.

Алгоритм сравнения строк:

Начинаем с первых символов каждой строки. Если символы равны, переходим к следующей паре символов
Когда находим первый отличающийся символ, строка с меньшим символом считается "меньше"
Если одна из строк заканчивается раньше, то более короткая считается "меньше"

Чтобы лучше разобраться с алгоритмом сравнения строк, рассмотрим несколько примеров.

Пример 1. Сравним строки 'hello' и 'hell'.

Сравнение первых символов: h и h – оба символа равны, переходим к следующей паре символов
Сравнение вторых символов: e и e – оба символа равны, переходим к следующей паре символов
Сравнение третьих символов: l и l – оба символа равны, переходим к следующей паре символов
Сравнение четвертых символов: l и l – оба символа равны, переходим к следующей паре символов
Сравнение пятых символов: o (у первой строки) и отсутствующий символ (у второй строки) – вторая строка закончилась
Поскольку у второй строки закончились символы, а у первой строки они еще есть, считается, что первая строка больше второй. Поэтому 'hello' > 'hell'.

Пример 2. Сравним строки 'men' и 'mya'.

1) Сравнение первых символов: m и m – оба символа равны, переходим к следующей паре символов

2) Сравнение вторых символов: e (у первой строки) и y (у второй строки) – символ e (число 101) меньше символа y (число 121)

Так как строки начинают различаться со второго символа, то на основе этого символа и делается вывод о результатах сравнения строк. В данном случае символ e меньше символа y. Получаем, что 'men' < 'mya'.

Обратите внимание, что в Python сравнение останавливается, как только находится первое различие между символами на соответствующих позициях. Дальнейшее сравнение символов не требуется.

Пример 3. Сравним строки 'Meeeeeooooooow' и 'meow'.

1) Сравнение первых символов: M (у первой строки) и m (у второй строки) –  символ M (число 77) меньше символа m (число 109).

Строки различаются уже на первых символах, и первый символ у первой строки меньше первого символа второй строки. Поэтому 'Meeeeeooooooow' < 'meow'

Примечания

Примечание 1. Нельзя путать сравнение чисел и сравнение строк, содержащих эти числа.

In [5]:
print(10 > 9)
print('10' > '9')

True
False


Примечание 2. Мы можем сравнивать не только строки, состоящие из букв латинского алфавита, но и строки, состоящие из любых символов, которые входят в таблицу Unicode. Алгоритм сравнения строк при этом будет аналогичный – в соответствии с кодами символов в таблице Unicode.

In [6]:
print('Тинькофф' == 'Т-банк')
print('¥' > '$€£')
print(max('🐷', '🦆', '🐔'))

False
True
🦆


Примечание 3. В Python не поддерживается операция сравнения строк и чисел друг с другом.

In [7]:
print('45' > 44)

TypeError: '>' not supported between instances of 'str' and 'int'

Python пытается выполнить лексикографическое сравнение для строк и числовое сравнение для чисел. Но эти операции несопоставимы, и поэтому возникает ошибка.

Примечание 4. В Python встроенные функции min() и max() могут принимать строки в качестве аргументов и сравнивают их лексикографически (используя порядок символов в кодировке Unicode). Как несложно догадаться, функция min() вернёт самую "маленькую" строку, а max() – самую "большую" строку.

In [8]:
print(max('tree', 'try', 'true'))
print(min('cat', 'car', 'cape'))

try
cape


Обратите внимание, что мы не можем одновременно передавать строки и числа в качестве аргументов в функции min() и max(). Это является следствием того, что мы не можем сравнивать строки с числами.

In [9]:
print(min('2', 8, '45', 90))

TypeError: '<' not supported between instances of 'int' and 'str'

In [10]:
print(max(9, 10, 11))
print(max('9', '10', '11'))

11
9


In [11]:
print(min('9', '10', '11') + max('9', '10', '11'))

109


In [12]:
print(min(10, 5, 15) + max('10', '5', '15'))

TypeError: unsupported operand type(s) for +: 'int' and 'str'

In [13]:
print(min(10, 5, 15) + max(10, 5, '15'))

TypeError: '>' not supported between instances of 'str' and 'int'

На вход программе подается последовательность строк, каждая строка на отдельной строке. Концом последовательности является слово «КОНЕЦ» (без кавычек). При этом само слово «КОНЕЦ» не входит в последовательность, лишь символизируя ее окончание. Напишите программу, которая находит в данной последовательности максимальную и минимальную строки (в лексикографическом порядке) и выводит их в следующем формате:

Минимальная строка ⬇️: <минимальная строка>
Максимальная строка ⬆️: <максимальная строка>
Формат входных данных
На вход программе подается последовательность строк, каждая на отдельной строке.

Формат выходных данных
Программа должна вывести текст в соответствии с условием задачи.

Примечание. Не только у чисел мы можем находить максимум и минимум. 🤪

In [None]:
x = ''
l = []
while x != 'КОНЕЦ':
    x = input()
    l.append(x)

# lines = list(iter(input, 'КОНЕЦ'))
l = l[:-1]

print(f'Минимальная строка ⬇️: {min(l)}')
print(f'Максимальная строка ⬆️: {max(l)}')

Волшебное число ✨
В некотором наборе слов Сэм находит "волшебное" число по следующему алгоритму: берет самую "маленькую" и самую "большую" строки, перемножает Unicode-коды последних символов этих строк и возводит полученное число в квадрат. Результатом и является "волшебное" число.

На вход программе подаются 4 слова. Найдите "волшебное" число в этом наборе слов.

Формат входных данных
На вход программе подаются 4 слова, каждое на отдельной строке.

Формат выходных данных
Программа должна вывести "волшебное" число в наборе слов.

In [None]:
l = [input() for _ in range(4)]
mn = min(l)
mx = max(l)

print((ord(mn[-1]) * ord(mx[-1])) ** 2)

В школе BEEGEEK названия учебных классов необычные. Они имеют следующий формат:

<номер класса><буква класса>
где <номер класса> должен находиться в диапазоне от 0 (как и все у программистов) до 9 включительно, а буквой класса могут быть все буквы в диапазоне от «А» до «П» включительно.

Напишите программу, которая принимает натуральное число n, а далее n названий классов, каждое на новой строке. Для каждого названия класса ваша программа должна выводить на отдельной строке «YES» (без кавычек), если название класса корректное, или «NO» (без кавычек) в противном случае.

Формат входных данных
На вход программе подается натуральное число n, а затем n названий классов, каждое на отдельной строке.

Формат выходных данных
Программа должна вывести на отдельной строке для каждого названия класса «YES» (без кавычек) или «NO» (без кавычек) в соответствии с условием задачи.

Примечание. Будем считать, что буквы Ё нет в русском алфавите, а значит, класс с такой буквой также будет считаться некорректным. 😢

In [23]:
for i in range(int(input())):
    x = input()
    print('NO' if len(x) != 2 else 'YES' if ord(x[0]) in range(ord('0'), ord('9') + 1) and ord(x[1]) in range(ord('А'),
                                                                                                              ord('П') + 1) else 'NO')

YES


На вход программе подаются 2 строки. Вам необходимо сравнить эти строки посимвольно, не учитывая регистр и игнорируя все небуквенные символы. Программа должна вывести «YES», если строки окажутся равны в результате такой проверки, или «NO» в противном случае.

Формат входных данных
На вход программе подаются 2 строки, каждая на отдельной строке.

Формат выходных данных
Программа должна вывести «YES» или «NO» в соответствии с условием задачи.

In [None]:
l1 = [i.lower() for i in input() if i.isalpha()]
l2 = [i.lower() for i in input() if i.isalpha()]

# print(l1)
# print(l2)
print(('NO', 'YES')[l1 == l2])

На вход программе подаются 3 различных слова. Вам необходимо отсортировать эти слова по возрастанию в лексикографическом порядке и вывести их на одной строке, разделяя символом пробела.

Формат входных данных
На вход программе подаются 3 слова, каждое на отдельной строке.

Формат выходных данных
Программа должна вывести 3 слова на одной строке, разделяя их символом пробела.

In [None]:
s1 = input()
s2 = input()
s3 = input()

l = [s1, s2, s3]
print(*sorted(l))

Все книги в домашней библиотеке Душнилы, друга Сэма, должны быть обязательно отсортированы по возрастанию: сначала по фамилиям авторов, а в случае совпадения фамилий – по названиям. Напишите программу, которая проверяет, верно ли отсортированы книги.

На вход вашей программе поступает число n, а затем – n строк, каждая строка представляет собой книгу в следующем формате:

<фамилия автора> <инициалы автора>, «<название книги>»
Программа должна вывести «YES» (без кавычек), если книги отсортированы в соответствии с пожеланиями Душнилы, или «NO» (без кавычек) в противном случае.

Формат входных данных
На вход программе подается натуральное число n, а затем – n строк.

Формат выходных данных
Программа должна вывести «YES» (без кавычек) или «NO» (без кавычек) в соответствии с условием задачи.

Примечание 1. Обратите внимание, что Душнила игнорирует инициалы автора при сортировке книг.

Примечание 2. Гарантируется, что книги в наборе не повторяются.

Примечание 3. Гарантируется, что фамилия автора состоит из одного слова.

In [None]:
books = [tuple(input().replace('»', '').strip().split(', «')) for _ in range(int(input()))]
sorted_books = sorted(books, key=lambda x: (x[0].split()[0], x[1]))
print(books)
print(sorted_books)


def check_sort(list1, list2):
    return print('YES' if list1 == list2 else 'NO')

check_sort(books, sorted_books)

In [24]:
library = [input().split() for _ in range(int(input()))]

print(("NO", "YES")[library == sorted(library, key=lambda x: (x[0], x[2]))])

['Гоголь Н.В.', '«Мертвые души»']


In [25]:
print('-'.join('DNA'))

D-N-A


In [26]:
symbols = ['I', 'D', 'O', 'L']
print(symbols.join('-'))

AttributeError: 'list' object has no attribute 'join'

In [27]:
1725*4

6900