Управляющие символы

В практике программирования достаточно часто используют управляющие символы . Это символы в кодировке, которым не приписано графическое представление, но которые используются для управления устройствами, организации передачи данных и других целей.

Вот основные управляющие символы:
Обозначение в коде 	Описание
\n 	Перевод строки
\f 	Перевод страницы
\r 	Возврат каретки
\t 	Горизонтальная табуляция
\v 	Вертикальная табуляция

Для того чтобы можно было вводить эти символы, добавляют экранирующий символ '\', который обозначает, что следующий за ним знак надо воспринимать как специальный символ, а не буквально.

Эти символы мы будем активно использовать в следующем модуле при работе с текстовыми файлами.

Напишите функцию real_len, которая подсчитывает и возвращает длину строки без следующих управляющих символов: [\n, \f, \r, \t, \v]

Для проверки правильности работы функции real_len ей будут переданы следующие строки:

    'Alex\nKdfe23\t\f\v.\r'
    'Al\nKdfe23\t\v.\r'


In [25]:
def real_len(text):
    text = text.replace('\n', '').replace(
        '\f', '').replace('\r', '').replace('\t', '').replace('\v', '')
    
    return len(text)
    


real_len('Alex\nKdfe23\t\f\v.\r')


'AlexKdfe23.'

Методы строк

Мы уже работали с методами строк на предыдущих этапах. Рассмотрим новую порцию методов, которые пригодятся нам в работе.
Поиск в строке

Метод find принимает три аргумента.

message = "Hello my little friend!"

print(message.find("li", 5, 15))  # 9
print(message.find("li", 10, 15))  # -1
print(message.find("li"))  # 9

Первый аргумент — подстрока, которую будет искать метод find в искомой строке message, второй аргумент — индекс начала поиска в message, а третий — индекс окончания поиска. Если не указать второй и третий аргумент, то поиск выполнится по всей строке. Метод выводит индекс начала первого совпадения в строке и возвращает -1, если последовательность не найдена.

Есть аналогичный метод поиска подстроки в строке — index. Основное отличие заключается в том, что если index не найдет подстроку, то вызовет исключение ValueError.

message = "Hello my little friend!"

print(message.index("li", 5, 15))
print(message.index("li", 10, 15))

Вывод:

9
Traceback (most recent call last):
  File "e:\WebDir\Works\Python\python-homework-tracks\module-05\src\test.py", line 4, in <module>
    print(message.index("li", 10, 15))
ValueError: substring not found

Если вам надо провести поиск подстроки в строке справа, существуют методы rfind и rindex:

message = "Hello my little friend!"

print(message.rfind("li"))  # 9
print(message.rindex("li"))  # 9

Разбиение строки на подстроки

Часто возникает ситуация, когда необходимо разбить строку на подстроки по некоторому символу, например, разбить текст на предложения по пробелу после точки, или предложение по словами. Для этого надо воспользоваться методом split, который принимает в качестве аргумента подстроку-маркер, которая будет границей, по которой строка будет разбита на части. В результате работы метода возвращается список строк.

message = "Hello, my little friend. Today is a very good day."
words = message.split(" ")
sentences = message.split(". ")
print(words)
print(sentences)

Вывод:

['Hello,', 'my', 'little', 'friend.', 'Today', 'is', 'a', 'very', 'good', 'day.']
['Hello, my little friend', 'Today is a very good day.']

Конкатенация строк

Все строки неизменяемые, поэтому все методы, которые как-то "модифицируют" строки, возвращают новые строки, никак не изменяя оригинальную.

Для объединения нескольких строк в одну через некоторый разделитель используется метод join. По сути, это операция обратная split:

words = [
    "Hello,",
    "my",
    "little",
    "friend.",
    "Today",
    "is",
    "a",
    "very",
    "good",
    "day.",
]
sentences = ["Hello, my little friend", "Today is a very good day."]

message_from_words = " ".join(words)
message_from_sentences = ". ".join(sentences)

print(message_from_words)  # Hello, my little friend. Today is a very good day.
print(message_from_sentences)  # Hello, my little friend. Today is a very good day.

Замена подстроки

Когда нам надо заменить некоторую подстроку в строке мы можем воспользоваться методом replace:

message = "В темной комнате все кошки черные (наверное)"
square_brackets = message.replace("(", "[").replace(")", "]")
clear_brackets = message.replace("(", "").replace(")", "")

print(square_brackets)  # В темной комнате все кошки черные [наверное]
print(clear_brackets)  # В темной комнате все кошки черные наверное

Для удаления фиксированной последовательности в начале строки есть метод removeprefix:

print('TestHook'.removeprefix('Test'))  # Hook
print('TestHook'.removeprefix('Hook'))  # TestHook

Есть парный метод для удаления последовательности в конце строки, removesuffix:

print('TestHook'.removesuffix('Hook'))  # Test
print('TestHook'.removesuffix('Test'))  # TestHook

У вашей компании есть блог. И надо реализовать функцию find_articles для поиска по статьям нашего блога. Есть список articles_dict, в котором находится описание статей блога. Каждый элемент этого списка представляет собой словарь со следующими ключами: фамилии авторов – ключ "author", название статьи – ключ "title", год издания – ключ "year".

Реализуйте функцию find_articles,

Параметр key функции определяет сочетание букв для поиска. Например, при key="Python" функция определяет, имеются ли в списке articles_dict статьи, в названии или именах авторов которых встречается это сочетание букв. Если такие элементы списка были найдены, то надо вернуть новый список из словарей, содержащий фамилии авторов, название и год издания всех таких статей.

Второй ключевой параметр функции letter_case определяет, учитывается ли при поиске регистр букв, по умолчанию он равен False и регистр не имеет значения т.е. "Python" и "python" это одно и тоже в тексте. Иначе искать полное совпадение.

In [86]:
articles_dict = [
    {
        "title": "Endless ocean waters.",
        "author": "Jhon Stark",
        "year": 2019,
    },
    {
        "title": "Oceans of other planets are full of silver",
        "author": "Artur Clark",
        "year": 2020,
    },
    {
        "title": "An ocean that cannot be crossed.",
        "author": "Silver Name",
        "year": 2021,
    },
    {
        "title": "The ocean that you love.",
        "author": "Golden Gun",
        "year": 2021,
    },
]


def find_articles(key, letter_case=False):
    a = []
    for i in articles_dict:
        for val in i.values():
            try:
                if letter_case == False:
                    if (key in val) or (key.lower() in val) or (key.capitalize() in val):
                        a.append(i)
                else:
                    if (key in val):
                        a.append(i)
            except AttributeError:
                continue
            except TypeError:
                continue
    return a


find_articles('Ocean', 1)


[{'title': 'Oceans of other planets are full of silver',
  'author': 'Artur Clark',
  'year': 2020}]

Задача: Sanitize данных телефонных номеров

Вспомним уже рассматривавшиеся методы для удаления лишних пробелов в начале и конце строки.

Чтобы удалить пропуски у правого края строки, используют метод rstrip

name = "Avril Lavigne        "
print(name.rstrip())  # Avril Lavigne

Чтобы удалить пропуски у левого края строки, используют метод lstrip

name = "         Avril Lavigne"
print(name.lstrip())  # Avril Lavigne

Чтобы удалить пропуски с обоих сторон строки, используют метод strip

name = "         Avril Lavigne          "
print(name.strip())  # Avril Lavigne

Они нам очень пригодятся при решении следующей задачи

Ваша компания проводит маркетинговые кампании с помощью SMS рассылок. Автоматический сбор телефонных номеров с базы данных формирует определенный список. Но клиенты оставляют свои номера в произвольном виде:

    "    +38(050)123-32-34",
    "     0503451234",
    "(050)8889900",
    "38050-111-22-22",
    "38050 111 22 11   ",

Сервис рассылок прекрасно понимает и может отправить SMS-ку клиенту, только если телефонный номер содержит цифры. Необходимо реализовать функцию sanitize_phone_number, которая будет принимать строку с телефонным номером и нормализовать его, т.е. будет убирать символы (, -, ), + и пробелы.

Результат:

380501233234
0503451234
0508889900
380501112222
380501112211


In [91]:
def sanitize_phone_number(phone):
    phone = phone.strip()
    phone = phone.replace('+', '').replace(
        '(', '').replace(')', '').replace('-', '').replace(' ', '')

    return phone


sanitize_phone_number("38050 111 22 11   ")

#  "    +38(050)123-32-34",
#  "     0503451234",
#  "(050)8889900",
#  "38050-111-22-22",
#  "38050 111 22 11   ",


# 380501233234
# 0503451234
# 0508889900
# 380501112222
# 380501112211


'380501112211'

Задача: проверка префикса строки
В модуле работы с функциями мы писали функцию get_fullname для составления полного имени. Выполним небольшое продолжение задачи и напишем функцию is_check_name, которая принимает два параметра (fullname, first_name) и возвращает логическое True или False. Это результат проверки, является ли строка first_name префиксом строки fullname. Функция is_check_name строго относится к регистру букв, то есть «Sam» и «sam» для неё разные имена.

In [93]:
def is_check_name(fullname, first_name):
    return True if (first_name in fullname) else False


is_check_name ('Sam Ivanov', 'sam')


False

Задача: Сортировка списка телефонных номеров

Вернемся к нашей задаче с телефонными номерами. Компания расширяется и вышла на рынок Азии. Теперь в списке приходят телефоны разных стран. Каждая страна имеет свой телефонный код .

Компания работает со следующими странами
Страна 	Код ISO 	Префикс
Japan 	JP 	+81
Singapore 	SG 	+65
Taiwan 	TW 	+886
Ukraine 	UA 	+380

Чтобы мы могли корректно выполнить маркетинговую SMS кампанию, необходимо выдать для каждой страны свой список телефонных номеров.

Напишите функцию get_phone_numbers_for_сountries, которая будет:

    Принимать список телефонных номеров.
    Санитизировать (нормализовать) полученный список телефонов клиентов с помощью нашей функции sanitize_phone_number.
    Сортировать телефонные номера по указанным в таблице странам.
    Возвращать словарь со списками телефонных номеров для каждой страны в следующем виде:

{
    "UA": [<здесь список телефонов>],
    "JP": [<здесь список телефонов>],
    "TW": [<здесь список телефонов>],
    "SG": [<здесь список телефонов>]
}

    Если не удалось сопоставить код телефона с известными, этот телефон должен быть добавлен в список словаря с ключом "UA".


In [104]:
def sanitize_phone_number(phone):
    new_phone = (
        phone.strip()
        .removeprefix("+")
        .replace("(", "")
        .replace(")", "")
        .replace("-", "")
        .replace(" ", "")
    )
    return new_phone


def get_phone_numbers_for_countries(list_phones):
    jp = []
    sg = []
    tw = []
    ua = []
    for i in list_phones:
        k = sanitize_phone_number(i)
        if k.startswith('81'):
            jp.append(k)
        elif k.startswith('65'):
            sg.append(k)
        elif k.startswith('886'):
            tw.append(k)
        elif k.startswith('380'):
            ua.append(k)
        else:
            ua.append(k)

        
    return {"UA": ua,
    "JP": jp,
    "TW": tw,
    "SG": sg
    }
    
    
    
    
get_phone_numbers_for_countries(["    +38(050)123-32-34", "     +81503451234", "+81508889900", "+88650-111-22-22",
                                     "+8150 111 22 11   ", "     +65503451234", "(050)8889900", "+6550-111-22-22", "38050 111 22 11   "])

    #["    +38(050)123-32-34", "     +81503451234", "+8150)8889900", "+88650-111-22-22", "+8150 111 22 11   ", "     +65503451234", "(050)8889900", "+6550-111-22-22", "38050 111 22 11   "]

# "UA": [<здесь список телефонов>],
#     "JP": [<здесь список телефонов>],
#     "TW": [<здесь список телефонов>],
#     "SG": [<здесь список телефонов>]

# Страна 	Код Префикс
# Japan 	JP 	+81
# Singapore SG 	+65
# Taiwan 	TW 	+886
# Ukraine 	UA 	+380

{'UA': ['380501233234', '0508889900', '380501112211'],
 'JP': ['81503451234', '81508889900', '81501112211'],
 'TW': ['886501112222'],
 'SG': ['65503451234', '65501112222']}

Задача: Валидация сообщения на присутствие спам слов

Рассмотрим задачу на проверку спама в email письме или фильтрацию запрещенных слов в сообщении.

Пусть функция is_spam_words принимает строку (параметр text), проверяет её на содержание запрещённых слов из списка (параметр spam_words), и возвращает результат проверки: True, если есть хоть одно слово из списка, и False, если в тексте стоп-слов не обнаружено.

Слова в параметре text могут быть в произвольном регистре, а значит функция is_spam_words, при поиске запрещённых слов, регистронезависима и весь текст должна сводить к нижнему регистру. Для упрощения, будем считать, что в строке присутствует только одно запрещенное слово.

Предусмотреть третий параметр функции space_around, который по умолчанию равен False. Он отвечает за то, что функция будет искать отдельное слово или нет. Слово считается стоящим отдельно, если слева от слова находится символ пробела или оно расположено в начале текста, а справа от слова находится пробел или символ точки.

Например, в тексте мы ищем слово "лох". То в слове "Молох" вызов и результат будет следующим:

print(is_spam_words("Молох", ["лох"]))  # True
print(is_spam_words("Молох", ["лох"], True))  # False

т.е. во втором случае слово не отдельное и является частью другого.

В этом примере, функция вернет True в обоих случаях.

print(is_spam_words("Ты лох.", ["лох"]))  # True
print(is_spam_words("Ты лох.", ["лох"], True))  # True


In [42]:
def is_spam_words(text, spam_words, space_around=False):
    text = text.lower()
    result = False
    if space_around == False:
        for words in spam_words:
            if words in text:
                result = True
            
    if space_around == True:
        for words in spam_words:
            if (' ' + words + ' ') in text:
                result = True
            elif (words + '.') in text:
                result = True
            elif (words + ',') in text:
                result = True
            if text.startswith(words):
                result = True
           
    return result


#is_spam_words("Молох", ["лох"])  # True
# is_spam_words("Молох", ["лох"], True)  # False


#is_spam_words("Ты лох.", ["лох"])  # True
is_spam_words("Ты лох.", ["лох"], True)  # True


True

Метод translate

Метод translate в Python позволяет заменить символ в строке на другой из карты (таблицы) соответствия, которую можно задать. Если мы используем словарь, мы должны использовать коды ASCII вместо символов.

Пример:

replace_dict = {117: "o"}
txt = "sun"
print(txt.translate(replace_dict))  # son

Что произошло? Мы заменили в тексте символ 'u' на символ 'o'. Значение 117 — это ASCII код символа 'u', которое, как мы знаем, можно получить с помощью функции ord("u").

replace_dict = {ord("u"): "o"}
txt = "sun"
print(txt.translate(replace_dict))  # son

Таким образом translate() – метод, который возвращает строку, где некоторые заданные символы заменяются на символы, описанные в словаре, или в таблице отображения. Если символ не указан в словаре/таблице, символ не будет заменен. Для создания таблицы отображения используется метод maketrans.

txt = "sun"
my_table = txt.maketrans("u", "o")
print(txt.translate(my_table))  # son

Можно определить набор для замен

txt = "sun"
my_table = txt.maketrans("nus", "mot")
print(txt.translate(my_table))  # tom

Третий параметр в таблице сопоставления описывает символы, которые вы хотите удалить из строки:

txt = "the sun"
my_table = txt.maketrans("nus", "nos", "he t")
print(txt.translate(my_table))  # son

Если мы собираемся транслировать кириллицу в латиницу, у нас может возникнуть проблема, например при транслитерации слова "чаша", которое должно быть "chasha" и имеет длину на два символа больше. Использование maketrans вызовет ошибку. Как быть?

Для этого можно использовать встроенную функцию zip, которая преобразовывает многочисленные итерируемые объекты в еди­ный итерируемый объект кортежей, состоящий из соответствующих элементов:

CYRILLIC = ("а", "ч", "ш")
LATIN = ("a", "ch", "sh")

TRANSLIT_DICT = {}

for c, l in zip(CYRILLIC, LATIN):
    TRANSLIT_DICT[ord(c)] = l
    TRANSLIT_DICT[ord(c.upper())] = l.upper()

print("чаша".translate(TRANSLIT_DICT))  # chasha
print("ЧАША".translate(TRANSLIT_DICT))  # CHASHA

Так быстро можно создать словарь для транслитерации. Если списки имеют разные длины, то функция zip прекратит работу, как только закончится первый из них.

Вы уже научились работать со строками более глубоко и теперь у вас есть полный набор инструментов для обработки строк с помощью Python.

С помощью функции zip, по аналогии с примером из теории, создайте словарь TRANS для транслитерации. Создавайте словарь TRANS вне функции translate

Напишите функцию translate, которая проводит транслитерацию кириллического алфавита на латинский.

Функция translate:

    принимает на вход строку и возвращает строку;
    проводит транслитерацию кириллических символов на латиницу;

Пример работы:

print(translate("Дмитрий Коробов"))  # Dmitrij Korobov
print(translate("Александр Иванович"))  # Aleksandr Ivanovich

Примечание: В задаче, при создании словаря TRANS, код TRANS[ord(c.upper())] = l.title() будет считаться не правильным, а TRANS[ord(c.upper())] = l.upper() — правильным. Это компромисс, так как в первом случаем мы учитываем заглавные буквы, а во втором — правильно, если имя будет все заглавными буквами. Чтобы не усложнять задачу, принято как в документах — все имя печатается заглавными.

In [96]:
CYRILLIC_SYMBOLS = "абвгдеёжзийклмнопрстуфхцчшщъыьэюяєіїґ"
TRANSLATION = ("a", "b", "v", "g", "d", "e", "e", "j", "z", "i", "j", "k", "l", "m", "n", "o", "p", "r", "s", "t", "u",
               "f", "h", "ts", "ch", "sh", "sch", "", "y", "", "e", "yu", "ya", "je", "i", "ji", "g")

TRANS = {}
for c, t in zip(CYRILLIC_SYMBOLS, TRANSLATION):
    TRANS[ord(c)] = t
    TRANS[ord(c.upper())] = t.upper()


def translate(name):

    return name.translate(TRANS)


'Николай Сергеевич'