# Домашнее задание к лекции "Регулярные выражения"
Внимание! При реализации всех заданий необходимо использовать именно функционал регулярных выражений для обработки текста.

## Задание 1

Напишите функцию, которая принимает на вход строку и проверяет является ли она валидным транспортным номером (1 буква, 3 цифры, 2 буквы, 2-3 цифры). Обратите внимание, что не все буквы кириллического алфавита используются в транспортных номерах.

Если номер валиден, то функция должна возвращать отдельно номер и регион.

Примеры работы программы:

car_id = 'A222BC96'
Результат: Номер A222BС валиден. Регион: 96

car_id = 'АБ22ВВ193'
Результат: Номер не валиден

In [1]:
import re
from collections import Counter

In [2]:
def validate_transport_number_t15(number:str)-> (bool, str):
    """Функция првоеряет валидность транспортного номера с типом 15 
    (для легковых, грузовых, грузопассажирских автомобилей, автобусов, автомобильных прицепов и полуприцепов).
    Формат корректного транспортного номера: 1 буква, 3 цифры, 2 буквы, 2-3 цифры. Пример: A222BC96.
    
    Входные параметры:
    number -- транспортный номер в формате str
    
    Выходные параметры: (флаг валидности в формате bool, номер региона в формате str)
    """
    
    number = str(number).upper()
    
    VALID_REGION_NUMBERS = ('1','02','102','702','3','4','5','6',
                            '7','8','9','10','11','12','13','113',
                            '14','15','16','116','716','17','18',
                            '19','21','121','22','122','23','93',
                            '123','193','24','84','88','124','25',
                            '125','26','126','27','127','28','29',
                            '30','31','32','33','34','134','35','36',
                            '136','37','38','85','138','39','91','40',
                            '41','82','42','142','43','44','45','46',
                            '47','147','48','49','50','90','150','190',
                            '750','790','51','52','152','53','54','154',
                            '55','56','156','57','58','59','81','159',
                            '60','61','161','761','62','63','163','763',
                            '64','164','65','66','96','196','67','68',
                            '69','169','70','71','72','73','173','74',
                            '174','774','75','80','76','77','97','99',
                            '177','199','197','777','797','799','78',
                            '98','178','198','79','82','83','86','186',
                            '87','89','92','94','20','95')
    
    pattern = r'^[АВЕКМНОРСТУХ]\d{3}[АВЕКМНОРСТУХ]{2}(\d{2,3})$'
    word = re.compile(pattern)
    result = word.findall(number)
    if len(result) == 0:
        region_number = ''
    else:
        region_number = result[0]
    
    # Значение региона будет отличным от пустой строки только в том случае, если соблюдено базовое соответствие формату
    # В случае базового соотвествия формату требуется проверить номер региона на корректность.
    if region_number in VALID_REGION_NUMBERS:
        return True, region_number
    else:
        return False, region_number
    
    
ts_numbers = ('А234ЕК124', 'Х777ОО179')
for ts_number in ts_numbers:
    tn_is_valid, region_number = validate_transport_number_t15(ts_number)
    print(f'Номер машины {ts_number}', f'валиден. Регион: {region_number}' if tn_is_valid else 'не валиден.')

Номер машины А234ЕК124 валиден. Регион: 124
Номер машины Х777ОО179 не валиден.


## Задание 2

Напишите функцию, которая будет удалять все последовательные повторы слов из заданной строки при помощи регулярных выражений.

In [3]:
def remove_repeat_words(line:str)->str:
    return re.sub(r'(\b\w+)\s\1', r'\1', line)
line = 'Сегодня Сегодня шел шел большой дождь дождь, было было пять часов вечера вечера'
remove_repeat_words(line)

'Сегодня шел большой дождь, было пять часов вечера'

## Задание 3

Напишите функцию, которая будет возвращать акроним по переданной в нее строке со словами.

In [4]:
def make_acronym(words:str)->str:
    return ''.join(re.findall(r'(?:\b\w)', words)).upper()

some_words = 'Near Field Communication'
print(make_acronym(some_words))

NFC


## Задание 4

Напишите функцию, которая будет принимать на вход список email-адресов и выводить их распределение по доменным зонам.

In [5]:
emails = ['test@gmail.com', 'xyz@test.in', 'test@ya.ru', 'xyz@mail.ru', 'xyz@ya.ru', 'xyz@gmail.com']
def print_domen_statistic(emails:list) -> None:
    """
    Функция печатает статистику используемых доменов в email-адресах.
    
    Входные параметры:
    emails -- список email-адресов
    """ 
    for domen, counter in Counter(re.findall(r'@(\w+\.\w+)','\n'.join(emails))).items():
        print(f'{domen}: {counter}')

print_domen_statistic(emails)

gmail.com: 2
test.in: 1
ya.ru: 2
mail.ru: 1


## Задание 5 (необязательное)

Напишите функцию, которая будет подсчитывать сколько слов начинается на гласные, а сколько на согласные буквы в тексте (текст может быть написан как с использованием букв кириллицы, так и латиницы).

In [6]:
def counting_letters_type(text:str) -> None:
    """ Функция выводит на печать количество слов, которые начинаются на глассные и согласные буквы.
    
    Входные параметры:
    text -- текст для анализа
    """
    
    vowels = len(re.findall(r'\b[АЕЁИОУЫЭЮЯAEIOUY]', text, flags=re.IGNORECASE))
    consonants = len(re.findall(r'\b[БВГДЖЗКЛМНПРСТФХЦЧШЩЪBCDFGHJKLMNPQRSTVWXZ]', text, flags=re.IGNORECASE))
    print(f'Слов на гласные буквы: {vowels}\nСлов на согласные буквы: {consonants}')
    
text = """
Эталонной реализацией Python является интерпретатор CPython, поддерживающий большинство 
активно используемых платформ. Он распространяется под свободной лицензией Python Software Foundation License, 
позволяющей использовать его без ограничений в любых приложениях, включая проприетарные.
"""
counting_letters_type(text)
    

Слов на гласные буквы: 9
Слов на согласные буквы: 21


## Задание 6 (необязательное)

Напишите функцию, которая будет проверять номер сотового телефона на валидность, если он валиден, то переводить его в формат: +7-xxx-xxx-xx-xx

In [7]:
def convert_phone_format(phone:str) -> str:
    """Функция конвертации номера телефона в формат +7-xxx-xxx-xx-xx
    
    Входные параметры:
    phone -- номер телефона тип str
    
    Выходные результаты: str, номер телефона в формате +7-xxx-xxx-xx-xx.
    Пустая строка, если формат телефона не поддерживается
    """
    
    pattern = r'\+?[78][\(\s-]*(\d{3})[\)\s-]*(\d{3})[\s-]*(\d\d)[\s-]*(\d\d)'
    search_result = re.findall(pattern, phone)
    if len(search_result) == 0:
        return ''
    return '+7-{}-{}-{}-{}'.format(*search_result[0])


phone_numbers = (
    '+7 955 555-55-55',
    '8(955)555-55-55',
    '+7 955 555 55 55',
    '7(955) 555-55-55',
    '423-555-55-5555',
    '123-456-789')

for phone_number in phone_numbers:
    phone_format = convert_phone_format(phone_number)
    if phone_format:
        print(f'{phone_number} -> {phone_format}')
    else:
        print(f'Номер {phone_number} не валиден')
        

+7 955 555-55-55 -> +7-955-555-55-55
8(955)555-55-55 -> +7-955-555-55-55
+7 955 555 55 55 -> +7-955-555-55-55
7(955) 555-55-55 -> +7-955-555-55-55
Номер 423-555-55-5555 не валиден
Номер 123-456-789 не валиден
