Управляющие символы

В практике программирования достаточно часто используют управляющие символы . Это символы в кодировке, которым не приписано графическое представление, но которые используются для управления устройствами, организации передачи данных и других целей.

Вот основные управляющие символы:
Обозначение в коде 	Описание
\n 	Перевод строки
\f 	Перевод страницы
\r 	Возврат каретки
\t 	Горизонтальная табуляция
\v 	Вертикальная табуляция

Для того чтобы можно было вводить эти символы, добавляют экранирующий символ '\', который обозначает, что следующий за ним знак надо воспринимать как специальный символ, а не буквально.

Эти символы мы будем активно использовать в следующем модуле при работе с текстовыми файлами.

Напишите функцию real_len, которая подсчитывает и возвращает длину строки без следующих управляющих символов: [\n, \f, \r, \t, \v]

Для проверки правильности работы функции real_len ей будут переданы следующие строки:

    'Alex\nKdfe23\t\f\v.\r'
    'Al\nKdfe23\t\v.\r'


In [25]:
def real_len(text):
    text = text.replace('\n', '').replace(
        '\f', '').replace('\r', '').replace('\t', '').replace('\v', '')
    
    return len(text)
    


real_len('Alex\nKdfe23\t\f\v.\r')


'AlexKdfe23.'

Методы строк

Мы уже работали с методами строк на предыдущих этапах. Рассмотрим новую порцию методов, которые пригодятся нам в работе.
Поиск в строке

Метод find принимает три аргумента.

message = "Hello my little friend!"

print(message.find("li", 5, 15))  # 9
print(message.find("li", 10, 15))  # -1
print(message.find("li"))  # 9

Первый аргумент — подстрока, которую будет искать метод find в искомой строке message, второй аргумент — индекс начала поиска в message, а третий — индекс окончания поиска. Если не указать второй и третий аргумент, то поиск выполнится по всей строке. Метод выводит индекс начала первого совпадения в строке и возвращает -1, если последовательность не найдена.

Есть аналогичный метод поиска подстроки в строке — index. Основное отличие заключается в том, что если index не найдет подстроку, то вызовет исключение ValueError.

message = "Hello my little friend!"

print(message.index("li", 5, 15))
print(message.index("li", 10, 15))

Вывод:

9
Traceback (most recent call last):
  File "e:\WebDir\Works\Python\python-homework-tracks\module-05\src\test.py", line 4, in <module>
    print(message.index("li", 10, 15))
ValueError: substring not found

Если вам надо провести поиск подстроки в строке справа, существуют методы rfind и rindex:

message = "Hello my little friend!"

print(message.rfind("li"))  # 9
print(message.rindex("li"))  # 9

Разбиение строки на подстроки

Часто возникает ситуация, когда необходимо разбить строку на подстроки по некоторому символу, например, разбить текст на предложения по пробелу после точки, или предложение по словами. Для этого надо воспользоваться методом split, который принимает в качестве аргумента подстроку-маркер, которая будет границей, по которой строка будет разбита на части. В результате работы метода возвращается список строк.

message = "Hello, my little friend. Today is a very good day."
words = message.split(" ")
sentences = message.split(". ")
print(words)
print(sentences)

Вывод:

['Hello,', 'my', 'little', 'friend.', 'Today', 'is', 'a', 'very', 'good', 'day.']
['Hello, my little friend', 'Today is a very good day.']

Конкатенация строк

Все строки неизменяемые, поэтому все методы, которые как-то "модифицируют" строки, возвращают новые строки, никак не изменяя оригинальную.

Для объединения нескольких строк в одну через некоторый разделитель используется метод join. По сути, это операция обратная split:

words = [
    "Hello,",
    "my",
    "little",
    "friend.",
    "Today",
    "is",
    "a",
    "very",
    "good",
    "day.",
]
sentences = ["Hello, my little friend", "Today is a very good day."]

message_from_words = " ".join(words)
message_from_sentences = ". ".join(sentences)

print(message_from_words)  # Hello, my little friend. Today is a very good day.
print(message_from_sentences)  # Hello, my little friend. Today is a very good day.

Замена подстроки

Когда нам надо заменить некоторую подстроку в строке мы можем воспользоваться методом replace:

message = "В темной комнате все кошки черные (наверное)"
square_brackets = message.replace("(", "[").replace(")", "]")
clear_brackets = message.replace("(", "").replace(")", "")

print(square_brackets)  # В темной комнате все кошки черные [наверное]
print(clear_brackets)  # В темной комнате все кошки черные наверное

Для удаления фиксированной последовательности в начале строки есть метод removeprefix:

print('TestHook'.removeprefix('Test'))  # Hook
print('TestHook'.removeprefix('Hook'))  # TestHook

Есть парный метод для удаления последовательности в конце строки, removesuffix:

print('TestHook'.removesuffix('Hook'))  # Test
print('TestHook'.removesuffix('Test'))  # TestHook

У вашей компании есть блог. И надо реализовать функцию find_articles для поиска по статьям нашего блога. Есть список articles_dict, в котором находится описание статей блога. Каждый элемент этого списка представляет собой словарь со следующими ключами: фамилии авторов – ключ "author", название статьи – ключ "title", год издания – ключ "year".

Реализуйте функцию find_articles,

Параметр key функции определяет сочетание букв для поиска. Например, при key="Python" функция определяет, имеются ли в списке articles_dict статьи, в названии или именах авторов которых встречается это сочетание букв. Если такие элементы списка были найдены, то надо вернуть новый список из словарей, содержащий фамилии авторов, название и год издания всех таких статей.

Второй ключевой параметр функции letter_case определяет, учитывается ли при поиске регистр букв, по умолчанию он равен False и регистр не имеет значения т.е. "Python" и "python" это одно и тоже в тексте. Иначе искать полное совпадение.

In [86]:
articles_dict = [
    {
        "title": "Endless ocean waters.",
        "author": "Jhon Stark",
        "year": 2019,
    },
    {
        "title": "Oceans of other planets are full of silver",
        "author": "Artur Clark",
        "year": 2020,
    },
    {
        "title": "An ocean that cannot be crossed.",
        "author": "Silver Name",
        "year": 2021,
    },
    {
        "title": "The ocean that you love.",
        "author": "Golden Gun",
        "year": 2021,
    },
]


def find_articles(key, letter_case=False):
    a = []
    for i in articles_dict:
        for val in i.values():
            try:
                if letter_case == False:
                    if (key in val) or (key.lower() in val) or (key.capitalize() in val):
                        a.append(i)
                else:
                    if (key in val):
                        a.append(i)
            except AttributeError:
                continue
            except TypeError:
                continue
    return a


find_articles('Ocean', 1)


[{'title': 'Oceans of other planets are full of silver',
  'author': 'Artur Clark',
  'year': 2020}]

Задача: Sanitize данных телефонных номеров

Вспомним уже рассматривавшиеся методы для удаления лишних пробелов в начале и конце строки.

Чтобы удалить пропуски у правого края строки, используют метод rstrip

name = "Avril Lavigne        "
print(name.rstrip())  # Avril Lavigne

Чтобы удалить пропуски у левого края строки, используют метод lstrip

name = "         Avril Lavigne"
print(name.lstrip())  # Avril Lavigne

Чтобы удалить пропуски с обоих сторон строки, используют метод strip

name = "         Avril Lavigne          "
print(name.strip())  # Avril Lavigne

Они нам очень пригодятся при решении следующей задачи

Ваша компания проводит маркетинговые кампании с помощью SMS рассылок. Автоматический сбор телефонных номеров с базы данных формирует определенный список. Но клиенты оставляют свои номера в произвольном виде:

    "    +38(050)123-32-34",
    "     0503451234",
    "(050)8889900",
    "38050-111-22-22",
    "38050 111 22 11   ",

Сервис рассылок прекрасно понимает и может отправить SMS-ку клиенту, только если телефонный номер содержит цифры. Необходимо реализовать функцию sanitize_phone_number, которая будет принимать строку с телефонным номером и нормализовать его, т.е. будет убирать символы (, -, ), + и пробелы.

Результат:

380501233234
0503451234
0508889900
380501112222
380501112211


In [91]:
def sanitize_phone_number(phone):
    phone = phone.strip()
    phone = phone.replace('+', '').replace(
        '(', '').replace(')', '').replace('-', '').replace(' ', '')

    return phone


sanitize_phone_number("38050 111 22 11   ")

#  "    +38(050)123-32-34",
#  "     0503451234",
#  "(050)8889900",
#  "38050-111-22-22",
#  "38050 111 22 11   ",


# 380501233234
# 0503451234
# 0508889900
# 380501112222
# 380501112211


'380501112211'

Задача: проверка префикса строки
В модуле работы с функциями мы писали функцию get_fullname для составления полного имени. Выполним небольшое продолжение задачи и напишем функцию is_check_name, которая принимает два параметра (fullname, first_name) и возвращает логическое True или False. Это результат проверки, является ли строка first_name префиксом строки fullname. Функция is_check_name строго относится к регистру букв, то есть «Sam» и «sam» для неё разные имена.

In [93]:
def is_check_name(fullname, first_name):
    return True if (first_name in fullname) else False


is_check_name ('Sam Ivanov', 'sam')


False