### Функции и регулярные выражения

#### Задание 1

Напишите функцию, которая принимает на вход строку и проверяет является ли она валидным транспортным номером (1 буква, 3 цифры, 2 буквы, 2-3 цифры). Обратите внимание, что не все буквы кириллического алфавита используются в транспортных номерах.
Если номер валиден, то функция должна возвращать отдельно номер и регион.
Примеры работы программы: 

`car_id = 'А222BС96'`

Результат: 
`Номер А222BС валиден. Регион: 96`

In [1]:
import re

In [2]:
def valid_car_id(car_id):
    
    '''
    Функция проверяет строку car_id на соответствие шаблону с помощью регулярного выражения.
    Если соответствует, то выводит раздельно номер и регион.
    Если нет - соответствующее сообщение.
    Шаблон: одна из допустимых букв, три цифры, две допустимых буквы, две-три цифры.
    Часть "одна из допустимых букв, три цифры, две допустимых буквы" выделяется в отдельную группу, это номер.
    Часть "две-три цифры" выделяется в отдельную группу, это регион.
    '''
    
    letters_allowed = 'АВЕКМНОРСТУХ' # кириллица
    car_id_val = re.findall(r'([' + letters_allowed + ']\d{3}[' + letters_allowed + ']{2})(\d{2,3})',car_id.upper())
    if car_id_val:
        print(f'Номер {car_id_val[0][0]} валиден. Регион: {car_id_val[0][1]}')
    else:
        print('Номер не валиден')

In [3]:
car_id = 'АБ22ВВ193'
valid_car_id(car_id)

Номер не валиден


In [4]:
car_id = 'А222ВС96' # буквы на кириллице
valid_car_id(car_id)

Номер А222ВС валиден. Регион: 96


In [5]:
car_id = 'A222BC95'  # буквы на латинице
valid_car_id(car_id)

Номер не валиден


#### Задание 2

Напишите функцию, которая будет удалять все последовательные повторы слов из заданной строки при помощи регулярных выражений.
Пример работы программы:

`some_string = 'Напишите функцию функцию, которая будет будет будет будет удалять все все все все последовательные повторы слов из из из из заданной строки строки при помощи регулярных выражений'`

Результат: 
`Напишите функцию, которая будет удалять все последовательные повторы слов из заданной строки при помощи регулярных выражений.`

In [6]:
def excl_double(text):
    
    '''
    Функция в строке text находит подряд повторящиеся слова и заменяет их на одно слово.
    Шаблон поиска повторов: какое-то кол-во букв, пробел, та же комбинация букв (минимум 1 раз).
    Замена на одну такую комбинацию букв.
    Возвращает строку text с осуществленными заменами.
    '''  
    
    return re.sub(r'(\w+)(\s\1)+',r'\1',text)

In [7]:
some_string = 'Напишите функцию функцию, которая будет будет будет будет \
удалять все все все все последовательные повторы слов из из из из заданной строки строки при помощи регулярных выражений'
excl_double(some_string)

'Напишите функцию, которая будет удалять все последовательные повторы слов из заданной строки при помощи регулярных выражений'

#### Задание 3

Напишите функцию, которая будет возвращать акроним по переданной в нее строке со словами.
Примеры работы программы:  

`some_words = 'Информационные технологии'`

Результат: 
`ИТ`

Вариант 1 (поиск шаблона)

In [8]:
def akronym(words):
    
    '''
    Функция делает все буквы в строке words заглавными, находит первые буквы слов и объединяет их в единую строку.
    Шаблон поиска: одна буква после границы слова.
    Возвращает строку из объединенных первых букв.
    '''
    
    return ''.join(re.findall(r'\b\w',words.upper()))

Вариант 2 (замена)

In [9]:
def akronym_2(words):
    
    '''
    Функция в строке words находит слова, заменяет их на первую букву слова, делает все буквы заглавными.
    Шаблон поиска: одна буква (выделяется в отдельную группу), минимум одна буква, пробел или нет.
    Замена на: букву выделенную в отдельную группу.
    Возвращает строку words с осуществленными заменами.
    '''
    
    return re.sub(r'(\w)\w+\s?',r'\1',words).upper()

In [10]:
some_words = 'Near Field Communication'
akronym(some_words)

'NFC'

In [11]:
some_words = 'Информационные технологии'
akronym_2(some_words)

'ИТ'

#### Задание 4

Напишите функцию, которая будет принимать на вход список email-адресов и выводить их распределение по доменным зонам.
Пример работы программы:  

`emails = ['test@gmail.com, xyz@test.in, test@ya.ru, xyz@mail.ru, xyz@ya.ru', xyz@gmail.com]`

Результат: 
```
gmail.com: 2
test.in: 1 
ya.ru: 2 
mail.ru: 1
```

In [12]:
def domain_distr(emails):
    
    '''
    Функция для каждого элемента списка emails ищет шаблон домена,
    если такого домена еще нет в словаре domain_dict, то добавляет и в качестве значения 1,
    если такой домен уже есть, то к его значению +1.
    Возвращает словарь domain_dict с доменами и их частотой.
    Шаблон для поиска: какое-то кол-во букв, точка, какое-то кол-во букв,
    и эта комбинация должна следовать после символа @.
    '''
    
    domain_dict ={}
    for email in emails:
        if re.findall(r'(?<=@)\w+\.\w+',email)[0] not in domain_dict:
            domain_dict[re.findall(r'(?<=@)\w+\.\w+',email)[0]] = 1
        else:
            domain_dict[re.findall(r'(?<=@)\w+\.\w+',email)[0]] += 1
    return domain_dict

In [13]:
emails = ['test@gmail.com', 'xyz@test.in', 'test@ya.ru', 'xyz@mail.ru', 'xyz@ya.ru', 'xyz@gmail.com']
domain_distr(emails)

{'gmail.com': 2, 'test.in': 1, 'ya.ru': 2, 'mail.ru': 1}

#### Задание 5

Напишите функцию, которая будет подсчитывать сколько слов начинается на гласные, а сколько на согласные буквы в тексте (текст может быть написан как с использованием букв кириллицы, так и латиницы). Пример работы программы:  

`some_text = 'Эталонной реализацией Python является интерпретатор CPython, поддерживающий большинство активно используемых платформ. Он распространяется под свободной лицензией Python Software Foundation License, позволяющей использовать его без ограничений в любых приложениях, включая проприетарные.'`

Результат: 
```
Слов на гласные буквы: 9
Слов на согласные буквы: 21 
```

In [14]:
def vow_cons(text):
    
    '''
    Функция в строке text ищет согласные и гласные в начале слов
    и записывает их в списки vow_list и cons_list.
    Выводит длину этих списков, то есть кол-во слов на гласные и согласные.
    Шаблон поиска: одна из перечня согласных/гласных букв (латиница+кириллица) после границы слова,
    какое-то кол-во букв - без учета регистра.    
    '''
    
    vow_list = re.findall(r'\b[аеёиоуыэюяaeiouy]\w+',text, flags = re.I)
    cons_list = re.findall(r'\b[^аеёиоуыэюяaeiouy\s]\w+',text, flags = re.I)
    print(f'Слов на гласные буквы: {len(vow_list)}')
    print(f'Слов на согласные буквы: {len(cons_list)}')

In [15]:
some_text = 'Эталонной реализацией Python является интерпретатор CPython, поддерживающий большинство активно используемых платформ. Он распространяется под свободной лицензией Python Software Foundation License, позволяющей использовать его без ограничений в любых приложениях, включая проприетарные.'
vow_cons(some_text)

Слов на гласные буквы: 9
Слов на согласные буквы: 20


#### Задание 6
Напишите функцию, которая будет проверять номер сотового телефона на валидность, если он валиден, то переводить его в формат:   
+7-xxx-xxx-xx-xx.
Постарайтесь предусмотреть как можно больше адекватных форматов изначального ввода номера: 

`phone = '+7 955 555-55-55'`

`phone = '8(955)555-55-55'`

`phone = '+7 955 555 55 55'`

`phone = '7(955) 555-55-55'`

`phone = '423-555-55-5555'`

In [16]:
def valid_ph(phone):
    
    '''
    Функция в строке phone ищет шаблон номера и выводит его в корректном формате,
    иначе сообщение о невалидности.
    Шаблон поиска: цифра 7 или 8, тире или скобка или пробел, три цифры, тире или скобка или пробел,
    три цифры, тире или пробел, две цифры, тире или пробел, две цифры.
    '''
    
    re_list = re.findall(r'([78])[-\(\s]+(\d{3})[-\)\s]+(\d{3})[\s-]+(\d{2})[\s-]+(\d{2})', phone)
    if re_list:
        print(f'+7-{re_list[0][1]}-{re_list[0][2]}-{re_list[0][3]}-{re_list[0][4]}')
    else:
        print('Номер не валиден')

In [17]:
phone = '123-456-789'
valid_ph(phone)

Номер не валиден


In [18]:
phone = '+7 955 555-55-55'
valid_ph(phone)

+7-955-555-55-55


In [19]:
phone = '8(955)555-55-55'
valid_ph(phone)

+7-955-555-55-55


In [20]:
phone = '7(955) 555-55-55'
valid_ph(phone)

+7-955-555-55-55
