# Python для анализа данных 

*Татьяна Рогович, НИУ ВШЭ*


## Регулярные выражения
#### (Задачи и Решения)

На основе статьи с [habr.com](https://habr.com/ru/post/349860/)

In [1]:
import re

### 1. Регистрационные знаки транспортных средств
В России применяются регистрационные знаки нескольких видов. 
Общего в них то, что они состоят из цифр и букв. Причём используются только 12 букв кириллицы, имеющие графические аналоги в латинском алфавите — А, В, Е, К, М, Н, О, Р, С, Т, У и Х.

У частных легковых автомобилях номера — это буква, три цифры, две буквы, затем две или три цифры с кодом региона. У такси — две буквы, три цифры, затем две или три цифры с кодом региона. Есть также и другие виды, но в этой задаче они не понадобятся.

Нам требуется определить, является ли последовательность букв корректным номером указанных двух типов, и если является, то каким.

На вход даются строки, которые претендуют на то, чтобы быть номером. На выходе нужно указать тип номера. Буквы в номерах — заглавные русские. Маленькие и английские для простоты можно игнорировать.

Примеры:
- С227НА777 - Private
- КУ22777 - Taxi
- Т22В7477 - Not Valid
- М227К19У9 - Not Valid
- *пробел*С227НА777 - Not Valid

In [22]:
def check(num):
    if re.match('\[А-Я]\d{3}\[А-Я]{2}\d{2,3}$', num):
        return 'Private'
    elif re.match('\[А-Я]{2}\d{4,5}$', num):
        return 'Taxi'
    return 'Not Valid'

In [23]:
number = '777777777'
check(number)

'Not Valid'

In [24]:
number = "С227НА777"
check(number)

'Not Valid'

In [16]:
number = "КУ22777"
check(number)

'Taxi'

In [17]:
number = "КУ2277710"
check(number)

'Not Valid'

In [18]:
number = "Т22В7477"
check(number)

'Not Valid'

In [19]:
number = "М227К19У9"
check(number)

'Not Valid'

In [20]:
number = " С227НА777"
check(number)

'Not Valid'

### 2. Количество слов
Слово — это последовательность из букв (русских или английских), внутри которой могут быть дефисы.
На вход даётся текст, посчитаем, сколько в нём слов.

**Пример:**

Он --- серо-буро-малиновая редиска!! \>>>:->  А не кот. www.kot.ru

**Вывод:** 9

In [1]:
# Ваш код здесь

### 3. Поиск почты

Допустимый формат e-mail адреса регулируется стандартом RFC 5322. 
Если говорить вкратце, то e-mail состоит из одного символа @ (at-символ или собака), текста до собаки (Local-part) и текста после собаки (Domain part). Вообще в адресе может быть всякий беспредел (вкратце можно прочитать о нём в википедии). Довольно странные штуки могут быть валидным адресом, например: 
- "very.(),:;<>[]\".VERY.\"very@\\ \"very\".unusual"@[IPv6:2001:db8::1] 
- "()<>[]:,;@\\\"!#$%&'-/=?^_`{}| ~.a"@(comment)exa-mple 

Но большинство почтовых сервисов такие адреса не допускают. И мы тоже не будем :)

Будем рассматривать только адреса, имя которых состоит из не более, чем 64 латинских букв, цифр и символов '._+-, а домен — из не более, чем 255 латинских букв, цифр и символов .-. Ни Local-part, ни Domain part не может начинаться или заканчиваться на .+-.

На вход даётся текст. Необходимо вывести все e-mail адреса, которые в нём встречаются. Стоит также помнить, что домен может быть двойным или даже тройным `wiki.hse.ru`

**Пример:**

Иван Иванович! Нужен ответ на письмо от ivanoff@ivan-chai.ru. Не забудьте поставить в копию serge'o-lupin@mail.ru- это важно.

**Вывод:**

ivanoff@ivan-chai.ru 

serge'o-lupin@mail.ru

In [2]:
st = "Иван Иванович! Нужен ответ на письмо от ivanoff@ivan-chai.ru. Не забудьте поставить в копию serge'o-lupin@mail.ru- это важно."
# Ваш код здесь

### 4. Замена времени
Вовочка подготовил одно очень важное письмо, но везде указал неправильное время. 
Поэтому нужно заменить все вхождения времени на строку (TBD). Время — это строка вида HH:MM:SS или HH:MM, в которой HH — число от 00 до 23, а MM и SS — число от 00 до 59.

**Пример**

Уважаемые! Если вы к 09:00 не вернёте чемодан, то уже в 09:00:01 я за себя не отвечаю. PS. С отношением 25:50 всё нормально!

**Вывод**

Уважаемые! Если вы к (TBD) не вернёте чемодан, то уже в (TBD) я за себя не отвечаю. PS. С отношением 25:50 всё нормально!

In [4]:
st = "Уважаемые! Если вы к 09:00 не вернёте чемодан, то уже в 09:00:01 я за себя не отвечаю. PS. С отношением 25:50 всё нормально!"
# Ваш код здесь

### 5. Аббревиатуры
Владимир устроился на работу в одно очень важное место. И в первом же документе он ничего не понял, 
там были сплошные ФГУП НИЦ ГИДГЕО, ФГОУ ЧШУ АПК и т.п. Тогда он решил собрать все аббревиатуры, чтобы потом найти их расшифровки на http://sokr.ru/. Помогите ему.

Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они 
считаются одной аббревиатурой.

**Пример**

Это курс информатики соответствует ФГОС и ПООП, это подтверждено ФГУ ФНЦ НИИСИ РАН

**Вывод**
- ФГОС 
- ПООП 
- ФГУ ФНЦ НИИСИ РАН

In [5]:
st = "Это курс информатики соответствует ФГОС и ПООП, это подтверждено ФГУ ФНЦ НИИСИ РАН"
# Ваш код здесь

### 6. Шифровка
Владимиру потребовалось срочно запутать финансовую документацию. Но так, чтобы это было обратимо. 
Он не придумал ничего лучше, чем заменить каждое целое число (последовательность цифр) на его куб. Нужно ему помочь.

**Пример**

Было закуплено 12 единиц техники по 410.37 рублей.

**Вывод**

Было закуплено 1728 единиц техники по 68921000.50653 рублей.

In [6]:
st = "Было закуплено 12 единиц техники по 410.37 рублей."
# Ваш код здесь

### 7. То ли акростих, то ли акроним, то ли апроним
Акростих — осмысленный текст, сложенный из начальных букв каждой строки стихотворения.
Акроним — вид аббревиатуры, образованной начальными звуками (напр. НАТО, вуз, НАСА, ТАСС), которое можно произнести слитно (в отличие от аббревиатуры, которую произносят «по буквам», например: КГБ — «ка-гэ-бэ»). 
На вход даётся текст. Выведем слитно первые буквы каждого слова. Буквы необходимо выводить заглавными. 

**Пример**

Московский государственный институт международных отношений

**Вывод**

МГИМО

In [28]:
st = "Московский государственный институт международных отношений"
# Ваш код здесь

'МГИМО'

In [29]:
st = "микоян авиацию снабдил алкоголем, народ доволен работой авиаконструктора"
# Ваш код здесь

'МАСАНДРА'

### 8.Форматирование номера телефона
Если вы когда-нибудь пытались собирать номера мобильных телефонов, то наверняка знаете, что почти любые 10 человек используют как минимум пяток различных способов записать номер телефона. Кто-то начинает с +7, кто-то просто с 7 или 8, а некоторые вообще не пишут префикс. Трёхзначный код кто-то отделяет пробелами, кто-то при помощи дефиса, кто-то скобками (и после скобки ещё пробел некоторые добавляют). После следующих трёх цифр кто-то ставит пробел, кто-то дефис, кто-то ничего не ставит. И после следующих двух цифр — тоже. В общем очень неудобно!


На вход даётся номер телефона, как его мог бы ввести человек. Необходимо его переформатировать в формат +7 123 456-78-90. Если с номером что-то не так, то нужно вывести строчку Fail!.

**Пример**

+7 123 456-78-90

8(123)456-78-90

7(123) 456-78-90

1234567890

123456789

+9 123 456-78-90

+7 123 456+78=90

+7(123 45678-90

**Вывод**

+7 123 456-78-90

+7 123 456-78-90

+7 123 456-78-90

+7 123 456-78-90

Fail!

Fail!

+7 123 456-78-90

+7 123 456-78-90

In [9]:
def check_num(num):
    # Ваш код здесь

In [10]:
num = "+7 123 456-78-90"
check_num(num)

num = "8(123)456-78-90"
check_num(num)

num = "7(123) 456-78-90"
check_num(num)

num = "1234567890"
check_num(num)

num = "123456789"
check_num(num)

num = "+9 123 456-78-90"
check_num(num)

num = "+7 123 456+78=90"
check_num(num)

num = "+7(123 45678-90"
check_num(num)

+7 123 456-78-90
+7 123 456-78-90
+7 123 456-78-90
+7 123 456-78-90
Fail!
Fail!
+7 123 456-78-90
+7 123 456-78-90


### 9. Форматирование больших чисел
Большие целые числа удобно читать, когда цифры в них разделены на тройки запятыми. 
Переформатируйте целые числа в тексте

**Пример**

12 мало 

лучше 123 

1234 почти 

12354 хорошо 

стало 123456 

супер 1234567

**Вывод**

12 мало 

лучше 123 

1,234 почти 

12,354 хорошо 

стало 123,456 

супер 1,234,567

In [7]:
st = "12 мало лучше 123 1234 почти 12354 хорошо стало 123456 супер 1234567"
# Ваш код здесь