## 1. Поиск ИНН юрлица
* Импорт модуля re, который можно использовать для работы с регулярными выражениями.
* **compile()** - компиляция регулярного выражения. На выходе получаем объект, к которому затем можно применять все необходимые  функции. 
* **search()** - поиск шаблона регулярного выражения. Search(pattern, string), где:
    * pattern - регулярное выражение
    * string - текст


In [1]:
import re

In [2]:
innR = re.compile(r'(?<=инн: )\d{10}\b|(?<=инн [–\-] )\d{10}\b|(?<=инн )\d{10}\b')

In [3]:
corpus = [
    '1. Реквизиты компании: ИНН - 1234567890.',
    '2. ООО "Ромашка", инн: 0987654321.',
    '3. Иванов И.И., ИНН 123456789012, тел. +7 9991234567'
]

In [4]:
inns = []
for text in corpus:
    inn=re.search(innR, text.lower())
    if inn:
        inns.append(inn[0])
    else:
        inns.append(False)
        
inns

['1234567890', '0987654321', False]

## 2. Извлечение никнейма пользователя, имени домена и суффикса из данных email адресов.
* findall() - извлечение всех вхождений, подходящих под шаблон регулярного выражения. На выходе получаем список.
* flags=re.IGNORECASE - шаблон без чувствительности к регистру. 
* Шаблон:
    * **\w** - один буквенный символ/цифра/нижнее подчеркивание, \w+ - не менее 1 символа и более
    * **[A-Z0-9]** - любой символ алфавита/цифра, [A-Z0-9]+ - не менее 1 символа и более
    * **{2,4}** - количество повторений от 2 до 4


In [5]:
emails = """zuck26@facebook.com  
page33@google.com  
jeff42@amazon.com  
"""  

pattern = r'(\w+)@([A-Z0-9]+)\.([A-Z]{2,4})'  
re.findall(pattern, emails, flags=re.IGNORECASE)  

[('zuck26', 'facebook', 'com'),
 ('page33', 'google', 'com'),
 ('jeff42', 'amazon', 'com')]

## 3. Удаление всех символов пунктуации из предложения.
* split() - разбиение строк по заданному паттерну. 
* Шаблон:
    * **;,\s_** - разбиение текста на основании разделителей  **;**   **,**  **пробел**  **_**  . 

In [6]:
sentence = """A, very very; irregular_sentence"""  
" ".join(re.split('[;,\s_]+', sentence))  

'A very very irregular sentence'

## 4. Замена американского формата записи даты MM/DD/YYYY на русский DD.MM.YYYY. 
#### (Без проверки того, что дни могут быть только в диапазоне от 1 до 31, а месяцы от 1 до 12.)
* **sub()** - поиск шаблона в строке и замена его на указанную подстроку. При отсутствии шаблона строка не меняется. 
* **sub(pattern, repl, string)**, где
    * pattern - шаблон для поиска строки (регулярное выражение)
    * repl - строка, на которую нужно произвести замену
    * string - входной текст
* Использование групп при заменах. **\N** - это указание на номер конкретной группы из шаблона pattern, которую нужно подставить. Группы выделяются при помощи ().

In [7]:
text="""Я влюбился в тебя 03/21/2017 23:45 по московскому времени, но встретились мы только 05/16/2021 20:00 спустя 4 года."""

pattern = '([0-9]{2})/([0-9]{2})/([0-9]{4})'
repl = r'\2.\1.\3'

re.sub(pattern, repl, text)

'Я влюбился в тебя 21.03.2017 23:45 по московскому времени, но встретились мы только 16.05.2021 20:00 спустя 4 года.'

### 5*. Дополнительные задания по регулярным выражениям

In [8]:
# Вывести любой символ кроме новой строки  
text = """python.org
good"""


#Найти точки в строке или все, кроме точки
text = 'python.org'  


#Любое число (1 и более цифр подряд) 
text = '01, Янв 2018'  


#Вывести все, кроме цифр
text = '01, Янв 2018'  


#Любая буква или цифра (1 символ или несколько подряд)
text = '01, Янв 2018'  


#Все, кроме букв и цифр
text = '01, Янв 2018'  


#Вывести только буквы
text = '01, Янв 2018'  


# Найти в заданном тексте номер мобильного телефона
text = 'Bangalore office number 1234567891, My number is 8884278690, emergency contact 3456789123 invalid number 898883456'  


#Вернуть первое слово из строки
text='AV is largest Analytics community of India'


#Вернуть первые два символа каждого слова
text='AV is largest Analytics community of India'


#Извлечь дату из строки
text='Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009'


#Извлеките все слова, начинающиеся с ‘b’ или ‘B’ из данного текста.
text = """Betty bought a bit of butter, But the butter was so bitter, So she bought some better butter, To make the bitter butter better."""


#Извлечь слова, начинающиеся на гласную
text='AV is largest Analytics community of India'


#Разбить строку по нескольким разделителям и заменить все разделители пробелами
text = 'asdf fjdk;afed,fjek,asdf,foo' 
