In [1]:
import re 

Регулярные выражения (regex или regexp) представляют собой набор символов, описывающий объем текста. Регулярные выражения являются одним из наиболее широко используемых инструментов обработки естественного языка и позволяют выполнять общие задачи по манипулированию текстовыми данными.

# Функции RE

Функции для работы с регулярками живут в модуле re. Основные функции:

- `re.search(pattern, string)`   Найти в строке string первую строчку, подходящую под шаблон pattern;
- `re.fullmatch(pattern, string)`   Проверить, подходит ли строка string под шаблон pattern;
- `re.split(pattern, string, maxsplit=0)`   Аналог str.split(), только разделение происходит по подстрокам, подходящим под шаблон pattern;
- `re.findall(pattern, string)`	Найти в строке string все непересекающиеся шаблоны pattern;
- `re.finditer(pattern, string)`   Итератор всем непересекающимся шаблонам pattern в строке string (выдаются match-объекты);
- `re.sub(pattern, repl, string, count=0)`   Заменить в строке string все непересекающиеся шаблоны pattern на repl;

### re.search(pattern, string)

In [2]:
match = re.search(r'\d{2}\D\d{2}\D\d{4}', 'Дата рождения 30.11.1987') 
print(match[0] if match else 'Not found')

30.11.1987


In [3]:
match = re.search(r'\d{2}\D\d{2}\D\d{4}', 'Дата рождения 1986-11-30') 
print(match[0] if match else 'Not found')

Not found


### re.fullmatch(pattern, string)

In [4]:
match = re.fullmatch(r'\d{2}\D\d{2}\D\d{4}', '30.11.1987г') 
print(match[0] if match else 'Not found')

Not found


In [5]:
match = re.fullmatch(r'\d{2}\D\d{2}\D\d{4}', '30.11.1987') 
print(match[0] if match else 'Not found')

30.11.1987


### re.split(pattern, string, maxsplit=0)

In [6]:
print(re.split('\W+', 'Где деньги, Лебовски?!')) 

['Где', 'деньги', 'Лебовски', '']


In [7]:
print(re.split(',', 'Где деньги, Лебовски?!')) 

['Где деньги', ' Лебовски?!']


### re.findall(pattern, string)

In [8]:
print(re.findall('\d{2}\D\d{2}\D\d{4}', 'Дедлайн по задаче был 01.12.2023, но ее здали только 10.12.2023. Странно, ведь по jire видно что все готово было к 2023-11-20. Видимо была найдена ошибка')) 

['01.12.2023', '10.12.2023']


### re.finditer(pattern, string)

In [9]:
# в array.start() хранится позиция, данные лучше доставать из цикла 
for n in re.finditer(r'\d\d\.\d\d\.\d{4}', 'Дедлайн по задаче был 01.12.2023, но ее здали только 10.12.2023'):
    print(n[0], 'start row in', n.start())

01.12.2023 start row in 22
10.12.2023 start row in 53


In [10]:
match = re.finditer(r'\d{2}\D\d{2}\D\d{4}', 'Дата рождения 30.11.1987, а у Марии 08.02.1990') 
for n in match:
    print(n.start())

14
36


### re.sub(pattern, repl, string, count=0)

In [11]:
print(re.sub(r'\d{2}\D\d{2}\D\d{4}', 
             'DD.MM.YYYY', 
             'Дедлайн по задаче был 01.12.2023, но ее здали только 10.12.2023')) 

Дедлайн по задаче был DD.MM.YYYY, но ее здали только DD.MM.YYYY


# Определения

- `Буквальный символ` — это самое простое регулярное выражение, которое вы можете использовать. Он просто соответствует реальному символу, который вы пишете. Итак, если вы пытаетесь представить букву «r», вы должны написать r. 
- `Метасимволы` сообщают механизму регулярных выражений, что следующий символ имеет особое значение. Обычно вы включаете \ перед метасимволом, и они могут выполнять такие действия, как обозначение начала строки, конец строки или соответствие любому отдельному символу. 
- `Класс символов:` (или набор символов) сообщает движку искать один из списка символов. Это обозначается символами [ и ] с искомыми символами в середине скобок. 
- `Группа захвата` обозначается открывающей и закрывающей круглой скобкой. Они позволяют группировать регулярные выражения вместе, чтобы применить к группе другие функции регулярных выражений, такие как квантификаторы

## Anchors

Anchors match a position before or after other characters.

<img src="./pictures_regex/1.png"  
  width="600"
/>

## Matching types of character

Rather than matching specific characters, you can match specific types of characters such as letters, numbers, and more.

<img src="./pictures_regex/2.png"  
  width="600"
/>

## Character classes

Character classes are sets or ranges of characters.

<img src="./pictures_regex/3.png"  
  width="600"
/>

## Repetition

Rather than matching single instances of characters, you can match repeated characters. 

<img src="./pictures_regex/4.png"  
  width="600"
/>

## Capturing, alternation & backreferences

In order to extract specific parts of a string, you can capture those parts, and even name the parts that you captured.

<img src="./pictures_regex/5.png"  
  width="600"
/>

## Lookahead 

You can specify that specific characters must appear before or after you match, without including those characters in the match.

<img src="./pictures_regex/6.png"  
  width="600"
/>

## Literal matches and modifiers

Modifiers are settings that change the way the matching rules work.

<img src="./pictures_regex/7.png"  
  width="600"
/>

## Unicode

Regular expressions can work beyond the Roman alphabet, with things like Chinese characters or emoji.

<img src="./pictures_regex/8.png"  
  width="600"
/>

# Примеры использования 

In [12]:
# пример проверка почты
mail_pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

txt = '''Звикли дивитися багато відео? - Робіть це з користю і вчіть мову! 
         Пропонуємо провести дозвілля переглядом відео-блогу для вивчення англійської за фільмами, шоу, серіалів і пісням у нашому YouTube-каналі https://www.youtube.com/@EnglishdomUA
         
         Залишились питання, пишіть на bilyko@englishdom.com'''

mail = re.findall(mail_pattern, txt) 
mail

['bilyko@englishdom.com']

In [13]:
# Из этого же текста достанем сайт 

http_patern = r'\bhttps?:\/\/\S+\b'

http = re.findall(http_patern, txt) 
http

['https://www.youtube.com/@EnglishdomUA']

In [14]:
# последнее слово в тексте или первое

txt = '''Регулярные выражения — это чрезвычайно важная часть деятельности программиста и полезный инструмент в рабочем арсенале. 
         Они избавляют от необходимости часами сидеть за написанием неоправданно длинного кода.'''

last_word_pattern = '\w+\W$'
first_word_pattern = '^\w+'

last_word = re.findall(last_word_pattern, txt) 
print(last_word)

first_word = re.findall(first_word_pattern, txt) 
print(first_word)

['кода.']
['Регулярные']


In [15]:
# даты в разных стилях
txt = '''21 декабря 2007 года Латвия вошла в состав, а с 30 марта 2008 года полностью применяет правила Шенгенской зоны. 1 января 2014 года Латвия стала 18-м членом Еврозоны.'''

date_pattern = '\d{1,2}\D\S+\D\d{4}'

date= re.findall(date_pattern, txt) 
print(date)

['21 декабря 2007', '30 марта 2008', '1 января 2014']


In [16]:
# чило c приставками

txt = '''Протяжённость страны с севера на юг составляет 250 км, а с запада на восток — 450 км. 
         Латвия граничит с Эстонией на севере, Россией — на востоке, с Белоруссией — на юго-востоке и Литвой — на юге.'''


number_pattern = r'\d{1,}\Wкм'

number = re.findall(number_pattern, txt) 
print(number)

['250 км', '450 км']


In [17]:
## пример Необходимо из текста достать имя и возраст 

txt =  '''Sylvie is 20 years old, her father, Christoph, is 55.
        Her grandfather Johannes was born at the end of WW-1 in 1918.
        He was 100 years old when he died in 2018'''

# Поскольку указанный в тексте возраст состоит из 2 или 3 цифр, то используется регулярное выражение \d{2,3}. 
# Оно с двух сторон ограничено \b, поскольку нам не нужны группы из 2 или 3 цифр, полученные из числа 1918. 
ages = re.findall(r'\b\d{2,3}\b', txt)  


# С именами в данном тексте все просто. 
# Вполне сработает поиск всех слов, начинающихся с заглавных букв и содержащих более 3 символов. Делаем это также с границами.
names = re.findall (r'\b[A-Z][a-z]{3,}\b',txt)

dict(zip(names, ages))

{'Sylvie': '20', 'Christoph': '55', 'Johannes': '100'}