# Регулярные выражения

История развития алгоритмов регулярных выражений (regex) связана с развитием теории формальных языков и компьютерных наук. Вот краткий обзор ключевых этапов в этой истории:

1. **Ранние шаги (1950-1960-е годы):** Первые работы по регулярным выражениям начались в 1950-х и 1960-х годах. Символика, используемая в регулярных выражениях, была в значительной степени стандартизирована.

2. **Алгоритм Томпсона (1960-е годы):** Кеннет И. Томпсон разработал алгоритм конструирования конечного автомата из регулярного выражения. Этот алгоритм стал основой для многих реализаций регулярных выражений и использовался в инструментах, таких как grep и sed.

3. **POSIX (1980-е годы):** Стандарт POSIX внёс стандартизацию в мир регулярных выражений. Этот стандарт определил, как должны работать регулярные выражения в системах Unix и стал основой для регулярных выражений в многих языках программирования и инструментах.

4. **Perl-Compatible Regular Expressions (PCRE) (1990-е годы):** PCRE — это библиотека регулярных выражений, разработанная для языка Perl. Она предоставляет расширенные возможности и стала популярной в других языках программирования.

5. **Развитие регулярных выражений в языках программирования:** Регулярные выражения стали встроенными функциональными возможностями во многих языках программирования, таких как Python, JavaScript, Ruby, и других. Разработчики добавляли улучшения и расширения для работы с регулярными выражениями в контексте своих языков.

6. **Регулярные выражения в инструментах поиска и обработки текста:** Регулярные выражения широко применяются в инструментах для поиска и обработки текста, таких как grep, sed, awk и многих других. Эти инструменты стали неотъемлемой частью администрирования систем и обработки данных.

7. **Развитие библиотек и онлайн-ресурсов:** В интернете появились многочисленные онлайн-ресурсы и библиотеки, которые помогают разработчикам создавать и тестировать регулярные выражения.

8. **Регулярные выражения в современных языках программирования:** Современные языки программирования, такие как Python и JavaScript, предоставляют богатые библиотеки для работы с регулярными выражениями, что делает их мощным инструментом для обработки текста.

История развития алгоритмов регулярных выражений отражает их важность и широкое применение в области обработки текста и поиска данных в компьютерных науках и разработке программного обеспечения.ашего NLP-проекта.

# Лучшие практики
Регулярные выражения (regex) - мощный инструмент для обработки и поиска текста в Python. Однако они могут быть сложными для понимания и поддержания, поэтому важно соблюдать лучшие практики при работе с ними. Вот несколько советов:

1. **Импортирование модуля `re`:** Для работы с регулярными выражениями в Python используется модуль `re`. В начале вашего скрипта или ноутбука импортируйте его следующим образом:

   ```python
   import re
   ```

2. **Использование символа `r` перед строкой с регулярным выражением:** В Python лучше всего использовать сырые строки (raw strings) при определении регулярных выражений, чтобы избежать неожиданных экранирований символов. Например:

   ```python
   pattern = r'\d+'  # Это сырая строка
   ```

3. **Компиляция регулярных выражений:** Если вы собираетесь использовать одно и то же регулярное выражение множество раз, то лучше скомпилировать его с помощью `re.compile()`. Это может улучшить производительность.

   ```python
   import re

   pattern = re.compile(r'\d+')
   result = pattern.search(text)
   ```

4. **Использование функций `match()` и `search()`:** `match()` и `search()` - это две основные функции для поиска регулярных выражений в строках. `match()` ищет только в начале строки, в то время как `search()` ищет по всей строке.

   ```python
   import re

   pattern = re.compile(r'\d+')

   # Используйте match() для поиска в начале строки
   result = pattern.match(text)

   # Используйте search() для поиска по всей строке
   result = pattern.search(text)
   ```

5. **Использование групп:** Вы можете использовать группы в регулярных выражениях, чтобы извлекать определенные части текста. Используйте круглые скобки для создания групп.

   ```python
   import re

   pattern = re.compile(r'(\d+)-(\d+)')
   match = pattern.match('2023-09-18')
   
   # Извлекаем группы
   if match:
       start, end = match.groups()
   ```

6. **Использование методов `findall()` и `finditer()`:** Если вам нужно найти все вхождения регулярного выражения в строке, используйте `findall()` или `finditer()`:

   ```python
   import re

   pattern = re.compile(r'\d+')
   results = pattern.findall(text)  # Возвращает список всех найденных совпадений

   # Или используйте finditer() для получения итерируемого объекта с объектами совпадений
   results = pattern.finditer(text)
   for match in results:
       print(match.group())
   ```

7. **Использование метода `sub()`:** Заменить в строке string все непересекающиеся шаблоны pattern на repl:

   ```python
   import re

    text = "one two one two one"
    
    pattern = r'one'    
    
replacement = 'thre '        
    

# Заменяет только первое вхождение "one" нthr   e    e"
new_text = re.sub(pattern, replacement, text,     t    =1)
print(newu
    ```=0)	;

7. **Документация и тестирование:** Регулярные выражения могут быть запутанными, поэтому всегда читайте документацию и тестируйте их на различных входных данных, чтобы убедиться в правильнос9и работы.

8. **Оптимизация производительности:** Регулярные выражения могут быть медленными для больших строк. Если производительность важна, рассмотрите возможность оптимизации регулярных выражений или использования других методов обработ10и текста.

9. **Использование онлайн-ресурсов:** Существует множество онлайн-ресурсов и инструментов, таких как regex101.com, для тестирования и отладки регулярных re.ASCII	По умолчанию \w, \W, \b, \B, \d, \D, \s, \S соответствуют
все юникодные символы с соответствующим качеством.
Например, \d соответствуют не только арабские цифры, но и вот такие: ٠١٢٣٤٥٦٧٨٩.

re.ASCII ускоряет работу, если все соответствия лежат внутри ASCII.

re.IGNORECASE	Не различать заглавные и маленькие буквы. Работает медленнее, но иногда удобно

re.MULTILINE	Специальные символы ^ и $ соответствуют началу и концу каждой стрre.DOTALL По умолчанию символ `\n` (конец строки) не соответствует символу точки (`.`) в регулярных выражениях. С флагом re.DOTALL точка (`.`) будет соответствовать любому символу, включая `\n`.

In [1]:
import re

text = "Line 1\nLine 2\nLine 3"
pattern = re.compile(r'.*', re.DOTALL)

match = pattern.search(text)
if match:
    print("Совпадение найдено:", match.group())

Совпадение найдено: Line 1
Line 2
Line 3


In [2]:
# Регулярные выражения в Python. https://habr.com/ru/articles/349860/
# Обратите внимание, что в регулярных выражениях обратный слэш `\` часто экранируется как `\\`, чтобы избежать конфликта с 
# экранированием в строках Python.

# Регулярка: `simple text`
#    - Смысл: В точности текст "simple text"

import re

text = "simple text"
pattern = r'simple text'

if re.search(pattern, text):
   print("Совпадение найдено")

Совпадение найдено


In [3]:
# Регулярка: `\d{5}`
#    - Смысл: Последовательности из 5 цифр

import re

text = "12345"
pattern = r'\d{5}'

if re.search(pattern, text):
   print("Совпадение найдено")

Совпадение найдено


In [60]:
# Регулярка: `\d\d/\d\d/\d{4}`
#    - Смысл: Даты в формате ДД/ММ/ГГГГ

import re

text = "31/12/2023"
pattern = r'\d\d/\d\d/\d{4}'

if re.search(pattern, text):
   print("Совпадение найдено")

Совпадение найдено


In [88]:
# Регулярка: `\b\w{3}\b`
#    - Смысл: Слова в точности из трёх букв

import re

text = "cat dog bat kkkk"
pattern = r'\b\w{3}\b'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: cat
Совпадение: dog
Совпадение: bat


In [89]:
# Регулярка: `[-+]?\\d+`
#    - Смысл: Целое число, например, 7, +17, -42, 0013 (возможны ведущие нули)

import re

text = "7 +17 -42 0013"
pattern = r'[-+]?\\d+'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

In [90]:
# Регулярка: `м.л.ко`
#    - Смысл: Любой символ, кроме новой строки `\n`, между "м", "л" и "ко".


import re

text = "молоко, малако, Им0л0коИхлеб"
pattern = r'м.л.ко'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: молоко
Совпадение: малако
Совпадение: м0л0ко


In [64]:
# Регулярка: `\d`
#    - Смысл: Любая цифра.

import re

text = "СУ35, СУ111, АЛСУ14"
pattern = r'\d'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: 3
Совпадение: 5
Совпадение: 1
Совпадение: 1
Совпадение: 1
Совпадение: 1
Совпадение: 4


In [65]:
# Регулярка: `\D`
#    - Смысл: Любой символ, кроме цифры.

import re

text = "926)123, 1926-1234"
pattern = r'\D'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: )
Совпадение: ,
Совпадение:  
Совпадение: -


In [66]:
# Регулярка: `\s`
#    - Смысл: Любой пробельный символ (пробел, табуляция, конец строки и т.п.).

import re

text = "бор ода, бор\nода, борода"
pattern = r'\s'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение:  
Совпадение:  
Совпадение: 

Совпадение:  


In [67]:
# Регулярка: `\S`
#    - Смысл: Любой непробельный символ.


import re

text = "X123, я123, !123456, 1 + 123456"
pattern = r'\S'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: X
Совпадение: 1
Совпадение: 2
Совпадение: 3
Совпадение: ,
Совпадение: я
Совпадение: 1
Совпадение: 2
Совпадение: 3
Совпадение: ,
Совпадение: !
Совпадение: 1
Совпадение: 2
Совпадение: 3
Совпадение: 4
Совпадение: 5
Совпадение: 6
Совпадение: ,
Совпадение: 1
Совпадение: +
Совпадение: 1
Совпадение: 2
Совпадение: 3
Совпадение: 4
Совпадение: 5
Совпадение: 6


In [68]:
# Регулярка: `\w`
#    - Смысл: Любая буква (то, что может быть частью слова), а также цифры и `_`.

import re

text = "Год, f_3, qwert"
pattern = r'\w\w\w'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: Год
Совпадение: f_3
Совпадение: qwe


In [69]:
# Регулярка: `\W`
#    - Смысл: Любой не-буква, не-цифра и не подчёркивание.

import re

text = "сом! сом?"
pattern = r'\W'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: !
Совпадение:  
Совпадение: ?


In [70]:
# Регулярка: `\b`
#    - Смысл: Начало или конец слова (слева пусто или не-буква, справа буква и наоборот).

import re

text = "вал, перевал, Перевалка"
pattern = r'\bвал'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: вал


In [71]:
# Регулярка: `\B`
#    - Смысл: Не граница слова: либо и слева, и справа буквы, либо и слева, и справа НЕ буквы.

import re

text = "перевал, вал, Перевалка"
pattern = r'\Bвал'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: вал
Совпадение: вал


In [72]:
# Шаблон: `{n}`
#    - Описание: Ровно n повторений
#    - Пример: `\d{4}` - ровно 4 цифры

import re

text = "1 12 123 1234 12345"
pattern = r'\d{4}'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: 1234
Совпадение: 1234


In [73]:
# Шаблон: `{m,n}`
#    - Описание: От m до n повторений включительно
#    - Пример: `\d{2,4}` - от 2 до 4 цифр

import re

text = "1 12 123 1234 12345"
pattern = r'\d{2,4}'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: 12
Совпадение: 123
Совпадение: 1234
Совпадение: 1234


In [74]:
# Шаблон: `{m,}`
#    - Описание: Не менее m повторений
#    - Пример: `\d{3,}` - не менее 3 цифр

import re

text = "1 12 123 1234 12345"
pattern = r'\d{3,}'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: 123
Совпадение: 1234
Совпадение: 12345


In [75]:
# Шаблон: `{,n}`
#    - Описание: Не более n повторений
#    - Пример: `\d{,2}` - не более 2 цифр

import re

text = "1 12 123"
pattern = r'\d{,2}'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: 1
Совпадение: 
Совпадение: 12
Совпадение: 
Совпадение: 12
Совпадение: 3
Совпадение: 


In [76]:
# Шаблон: `?`
#    - Описание: Ноль или одно вхождение, синоним {0,1}
#    - Пример: `валы?` - "вал" или "валы"

import re

text = "вал валы валов"
pattern = r'валы?'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: вал
Совпадение: валы
Совпадение: вал


In [77]:
# Шаблон: `*`
#    - Описание: Ноль или более, синоним {0,}
#    - Пример: `СУ\d*` - "СУ", "СУ1", "СУ12", ...

import re

text = "СУ СУ1 СУ12 СУ123"
pattern = r'СУ\d*'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: СУ
Совпадение: СУ1
Совпадение: СУ12
Совпадение: СУ123


In [78]:
# Шаблон: `+`
#    - Описание: Одно или более, синоним {1,}
#    - Пример: `a\)+` - одна или более закрывающих скобок "a)"

import re

text = "a) a)) a))) ba)"
pattern = r'a\)+'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: a)
Совпадение: a))
Совпадение: a)))
Совпадение: a)


In [79]:
# Шаблон: `*?`, `+?`, `??`, `{m,n}?`, `{,n}?`, `{m,}?`
#    - Описание: Ленивые (нежадные) квантификаторы, захватывают минимально возможное число символов.

import re

text = "a + b) * (c + d) * (e + f)"
pattern = r'\(.*?\)'

matches = re.findall(pattern, text)
for match in matches:
   print("Совпадение:", match)

Совпадение: (c + d)
Совпадение: (e + f)


In [80]:
# Регулярные выражения с использованием lookaround на примере королей и императоров Франции в Python:

# Людовик(?=VI) — Людовик, за которым идёт VI:

import re

text = "ЛюдовикVI КарлIV ЛюдовикVII ФилиппVI"
pattern = r'Людовик(?=VI)'

matches = re.findall(pattern, text)
print(matches)

['Людовик', 'Людовик']


In [81]:
# Людовик(?!VI) — Людовик, за которым идёт не VI:

import re

text = "ЛюдовикVI КарлIV ЛюдовикVII ФилиппVI"
pattern = r'Людовик(?!VI)'

matches = re.findall(pattern, text)
print(matches)

[]


In [82]:
# (?<=Людовик)VI — «шестой», но только если Людовик:

import re

text = "ЛюдовикVI КарлIV ЛюдовикVII ФилиппVI"
pattern = r'(?<=Людовик)VI'

matches = re.findall(pattern, text)
print(matches)

['VI', 'VI']


In [83]:
# (?<!Людовик)VI — «шестой», но только если не Людовик:

import re

text = "ЛюдовикVI КарлIV ЛюдовикVII ФилиппVI"
pattern = r'(?<!Людовик)VI'

matches = re.findall(pattern, text)
print(matches)

['VI']
