# 2.22 Регулярные выражения Часть 1
[Regular Expression HOWTO](https://docs.python.org/3/howto/regex.html)
### Основные методы поиска
- `match()`
- `fullmatch()`
- `search()`
- `findall()`
- `finditer()`
### Редактирование и фрагментирование
- `sub()`
- `split()`
### Основные методы найденного объекта
- `group()`
- `start()`
- `end()`
- `span()`

In [1]:
import re

## Поисковый объект `pattern`

In [2]:
string="Примеры численных форматов: 1 | 2.9 | -3 | +8.5 | 4,108.001 | 1234567"
for el in ['\d','\d{2}','\d{7}']:
    pattern_obj=re.compile(el)
    print(pattern_obj.findall(string))

['1', '2', '9', '3', '8', '5', '4', '1', '0', '8', '0', '0', '1', '1', '2', '3', '4', '5', '6', '7']
['10', '00', '12', '34', '56']
['1234567']


## `re flags`

- `re.I` => `re.IGNORECASE`	
    - делает регулярное выражение нечувствительным к регистру
- `re.L` => `re.LOCALE`
    - поведение специальных последовательностей (`\w, \W, \b,\s, \S`) будет зависеть 
    - от локальных установок, то есть языка пользователя, страны и т.д.
- `re.M`  => `re.MULTILINE` 
    - `^` и `$` будут совпадать в начале и в конце каждой линии текста, 
    - а не только в начале и в конце строки
- `re.S` => `re.DOTALL` 
    - точка "." будет соответствовать каждому символу плюс новая строка
- `re.U` => `re.UNICODE` 
    - делает `\w, \W, \b, \B, \d, \D, \s, \S` зависимыми от свойств символа Unicode
- `re.X` => `re.VERBOSE` 
    - разрешение «подробных регулярных выражений», т.е. игнорируются пробелы, #

## `re.findall(pattern, string, flags=0)`

- https://www.pythontutorial.net/python-regex/python-regex-findall/





In [3]:
def start_with(letter,string,ic=True):
    pattern=r'\b'+letter+r'\w*\b'
    return re.findall(pattern,string,flags=re.IGNORECASE if ic else 0)
string="The dog ate a frog. A is an alphabet letter. A ant is an insect."
letter="a"
result=start_with(letter,string)
print(result)
result=start_with(letter,string,False)
print(result)
string='А роза упала на лапу Азора'
letter='а'
result=start_with(letter,string)
print(result)
result=start_with(letter,string,False)
print(result)

['ate', 'a', 'A', 'an', 'alphabet', 'A', 'ant', 'an']
['ate', 'a', 'an', 'alphabet', 'ant', 'an']
['А', 'Азора']
[]


In [4]:
# Часто встречается в рекомендациях
# для поиска слов, начинающихся с определенной буквы
# не работает со словами, состоящими из одной буквы
letter='а'
string='А роза упала на лапу Азора'
pattern=r'\b['+letter+r']\w+\b'
matches=re.findall(pattern,string)
print(matches)
matches=re.findall(pattern,string,flags=re.IGNORECASE)
print(matches)
matches=re.findall(pattern,string.lower())
print(matches)

[]
['Азора']
['азора']


In [5]:
# Поиск всех слов с буквой А, а
string='А роза упала на лапу Азора'
pattern='[а-яА-Я]*[аА][а-яА-Я]*'
matches=re.findall(pattern,string)
print(matches)

['А', 'роза', 'упала', 'на', 'лапу', 'Азора']


In [6]:
# Слова, начинающиеся с пр
# ! Отсекает другие символы в начале слова
string='опрос пакет ?праздник привет природа провод пятница'
pattern=r'пр\w+'
re.findall(pattern,string)

['прос', 'праздник', 'привет', 'природа', 'провод']

In [7]:
# Слова, начинающиеся с пр, не включая пр
string='опрос пакет ?праздник привет природа провод пятница'
pattern=r'пр(\w+)'
re.findall(pattern,string)

['ос', 'аздник', 'ивет', 'ирода', 'овод']

In [8]:
# Пары вида (слово начинающееся с пр, слово без этого фрагмента)
string='опрос пакет ?праздник Привет природа провод пятница'
pattern=r'(пр(\w+))'
re.findall(pattern,string)

[('прос', 'ос'),
 ('праздник', 'аздник'),
 ('природа', 'ирода'),
 ('провод', 'овод')]

In [9]:
# Пары вида (слово начинающееся с пр, слово без этого фрагмента)
# игнорирование заглавных букв
string='опрос Пакет ?праздник Привет природа провод пятница'
pattern=r'(пр(\w+))'
re.findall(pattern,string,re.IGNORECASE)

[('прос', 'ос'),
 ('праздник', 'аздник'),
 ('Привет', 'ивет'),
 ('природа', 'ирода'),
 ('провод', 'овод')]

In [10]:
# Регулярное выражение для поиска всех символов цифр в строке - r'\d+'
def find_numbers(string,pattern=r'\d+',mapfunc=None):
    """
    Функция для поиска символов цифр в строке 
    и возврата списка найденных фрагментов
    """
    if mapfunc!=None:
        return list(map(mapfunc,re.findall(pattern,string)))
    else:
        return re.findall(pattern,string)

In [11]:
# Пример использования функции
# Просто извлекает все строковые фрагменты 
# c цифрами или числами (если несколько цифр подряд)
pattern=r'\d+'
string='hi, -hhh a-a 123 45.6 789 10 -12,103.00 -2 -35.7'
numbers=find_numbers(string,pattern)
print(numbers) 

['123', '45', '6', '789', '10', '12', '103', '00', '2', '35', '7']


In [12]:
# С изменением типа данных
numbers=find_numbers(string,pattern,int)
print(numbers) 

[123, 45, 6, 789, 10, 12, 103, 0, 2, 35, 7]


In [13]:
# Не распознает корректно формат -12,103.00
pattern='-?\d+\.?\d*'
string='hi, -hhh a-a 123 45.6 789 10 -12,103.00 -2 -35.7'
numbers=find_numbers(string,pattern)
print(numbers)

['123', '45.6', '789', '10', '-12', '103.00', '-2', '-35.7']


In [14]:
# С изменением типа данных и удалением запятых
numbers=find_numbers(string.replace(',',''),pattern,float)
print(numbers)

[123.0, 45.6, 789.0, 10.0, -12103.0, -2.0, -35.7]


## `re.search(pattern, string, flags=0)` 

In [29]:
# Применение к каждой линии текста
pattern=r"Python\.$"
strings=["Мне нравится Python.\n","Мне нравится Python.\n\n",
         "Мне нравится Python, R, Javascript.",
         "Мне нравится Python.\nКто-то предпочитает C++."]
for string in strings:
    print(re.search(pattern,string),re.search(pattern,string,re.M))

<re.Match object; span=(13, 20), match='Python.'> <re.Match object; span=(13, 20), match='Python.'>
None <re.Match object; span=(13, 20), match='Python.'>
None None
None <re.Match object; span=(13, 20), match='Python.'>


In [15]:
# Достаточно трудно использовать для парсинга HTML
open_close = lambda s: re.search(r'<([^>]+)>[\s\S]*?</\1>',s)
open_close('<table>тест</table>'),\
open_close('<a href=""></br>'),open_close('<h1></html>')

(<re.Match object; span=(0, 19), match='<table>тест</table>'>, None, None)

In [16]:
# Обработка даты 
def date_groups(s):
    re_obj1 = re.search(r'(\d{2})-(\d{2})-(\d{4})',s)
    re_obj2 = re.search(r'(\d{2})/(\d{2})/(\d{4})',s)
    if re_obj1 != None:
        return re_obj1.groups()
    elif re_obj2 != None:
        return re_obj2.groups()   
    else:
        return None
date_groups('21/01/2023'),date_groups('21-01-2023'),date_groups('21-01-')

(('21', '01', '2023'), ('21', '01', '2023'), None)

## `re.match(pattern, string, flags=0) `

In [17]:
# регулярные выражения для фразы в начале
string='я рад, как я рад '
for pattern in ['(\W|^)я\sрад(\W|$)','я\sрад']:
    matches=re.match(pattern,string)
    print(matches.group())

я рад,
я рад


In [18]:
# пробел помешал найти во втором случае
#\W соответствует любому символу кроме буквы, цифры или подчеркивания
string=' я рад, как я рад '
for pattern in ['(\W|^)я\sрад(\W|$)','я\sрад']:
    matches=re.match(pattern,string)
    print(matches)

<re.Match object; span=(0, 7), match=' я рад,'>
None


## `re.fullmatch(pattern, string, flags=0)`

In [19]:
def is_email(string:str)->bool:
    """
    Функция определяет, является ли строка электронным адресом
    """
    pattern=r'[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}'
    if re.fullmatch(pattern,string) is None:
        raise ValueError(f'{string} не является электронным адресом')
    return True
for el in ['no-reply@pythontutor','no-reply@pythontutor.ru',
           'no-reply@python_tutor.ru','@pythontutor.ru']:
    try:
        if is_email(el): print(f'{el} является электронным адресом')
    except ValueError as e: print(e)

no-reply@pythontutor не является электронным адресом
no-reply@pythontutor.ru является электронным адресом
no-reply@python_tutor.ru не является электронным адресом
@pythontutor.ru не является электронным адресом


In [20]:
# разница между поисковыми функциями
string='Python 3'
for pattern in ['Python','\d']:
# список вхождений
    match=re.findall(pattern,string)
    if match!=None: 
        print(f'findall(): {match}')
# вся строка
    match=re.fullmatch(pattern,string)
    if match!=None: 
        print(f'fullmatch(): {match.group()}')
# в начале строки
    match=re.match(pattern,string)
    if match!=None: 
        print(f'match(): {match.group()}')
# в любом месте строки
    match=re.search(pattern,string)
    if match!=None: 
        print(f'search(): {match.group()}')

findall(): ['Python']
match(): Python
search(): Python
findall(): ['3']
search(): 3


##`re.sub(regex, replacement, subject)`

In [21]:
# Замена фрагмента
string="Да, да и еще раз да."
result=re.sub("[Дд]а","нет",string)
print(result)

нет, нет и еще раз нет.


## `re.split() & str.split()`

In [22]:
string="А;роза;упала;на;лапу;Азора"
print(string.split(";",3))

['А', 'роза', 'упала', 'на;лапу;Азора']


In [23]:
# любой символ, кроме подчеркивания
print(string)
print(re.split("\W+",string))
print(string.replace(';','_'))
print(re.split("\W+",string.replace(';','_')))

А;роза;упала;на;лапу;Азора
['А', 'роза', 'упала', 'на', 'лапу', 'Азора']
А_роза_упала_на_лапу_Азора
['А_роза_упала_на_лапу_Азора']


In [24]:
# удаление повторяющихся фрагментов, используя разметку пунктуации
lines=["фамилия: Крюков, имя: Иван, должность: менеджер проекта", 
       "фамилия: Машкова, имя: Анна, должность: архитектор"]
for line in lines:
    print(re.split(",* *\w*: ",line)[1:])  

['Крюков', 'Иван', 'менеджер проекта']
['Машкова', 'Анна', 'архитектор']


## Найденный объект `match`

In [25]:
string="Примеры численных форматов: 1 | 2.9 | -3 | +8.5 | 4,108.001 | 1234567"
match_obj=re.search('\d',string)
print('Найденный объект:',match_obj.group())
print('Стартовая позиция:',match_obj.start())
print('Финишная позиция:',match_obj.end())
print('Старт и финиш:',match_obj.span())

Найденный объект: 1
Стартовая позиция: 28
Финишная позиция: 29
Старт и финиш: (28, 29)
