> *Когда некоторые люди сталкиваются с проблемой, думают «Я знаю, я решу её с помощью регулярных выражений.» Теперь у них две проблемы*

## Регулярные выражения

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте. Одному шаблону может соответствовать много разных строчек.

Термин «Регулярные выражения» является переводом английского словосочетания «Regular expressions». Перевод не очень точно отражает смысл, правильнее было бы «шаблонные выражения». Регулярное выражение, или коротко «регулярка», состоит из обычных символов и специальных командных последовательностей. Например, `\d` задаёт любую цифру, а `\d*` — задает любую последовательность из нуля или более цифр

### Начнем с простых текстовых шаблонов

В Python поиску по шаблону обучно используется функция `search` из библиотеки `re`:
````
match = re.search(pattern, string)
````

In [1]:
import re

Метод `re.search()` принимает шаблон `pattern` и строку `string`, а затем ищет этот шаблон в строке.

Если поиск успешен, `search()` возвращает подстроку, которая удовлетворяет поиску, в противном случае - `None.


Давайте с помощью этого метода попробуем найти в строке котов:

In [2]:
string = 'Я люблю котиков и мятные пряники'
match = re.search( r'кот', string)
if match:
    print('Нашёл слово:', match.group())
else:
    print('В этом тексте нет котов :(')

Нашёл слово: кот


Код `match = re.search(r'какая-то регулярка', str)` сохраняет результат поиска в переменную с именем `match`. Если поиск завершился успешно, то `match.group()` является совпадающим текстом


## Основные спецсимволы

Для задания шаблонов в регулярных выражениях используются спецсимволы.

Давайте посмотрим основные из них:

**.**   Один любой символ, кроме новой строки

**\d**	Любая цифра

**\D**	Любой символ, кроме цифры

**\s**	Любой пробельный символ (пробел, табуляция, конец строки и т.п.)

**\S**	Любой непробельный символ	(не пробел, не табуляция, не конец строки и т.п.)

**\w**	Любая буква (то, что может быть частью слова), а также цифры и _

**\W**	Любая не-буква, не-цифра и не подчёркивание

**[..]**	Один из символов в скобках в рамках диапазона, то есть:

**\d** равносильно выражению `[0-9]`

**\D** равносильно выражению `[^0-9]`, так как символ ^ означает любой символ, кроме перечисленных

**\w** равносильно выражению `[0-9a-zA-Z]`, эта запись сочетает в себе последовательность из любых цифр, букв в обоих регистрах

**\s** равносильно `[\f\n\r\t]` (тут надо постараться, чтобы вспомнить что есть что!)

**\b** Начало или конец слова (слева пусто или не-буква и справа буква, или наоборот). В отличие от предыдущих соответствует позиции, а не символу.

**^ и $**	тоже обозначение начало и конца строки соответственно

Кстати, любая строка, в которой нет символов, сама по себе является регулярным выражением. Так, выражению "привет" будет соответствовать строка “привет” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “ПрИвЕт” уже не подойдёт. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы `**.^$*+?{}[]\|()**`, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \

Например, если вы хотите найти выражение в скобках, то надо написать `\(\w*\)`.

### Посмотрим на примеры!

In [3]:
# зададим шаблон: любой символ  + окончание "ом" и посмотрим, какие примеры подойдут
all_strings = ['дом', 'ком', 'космодром', '5ом', '666ом', '_ом', 'ом']
for element in all_strings:
    match_ = re.search( ".*ом", element)
    if match_:
        print(match_.group(), end = ', ')

дом, ком, космодром, 5ом, 666ом, _ом, ом, 

In [4]:
# проверим есть ли в строке вопросительный знак
string = 'Как дела?'
result = re.search(r'\?', string)
if result:
    print('В строке есть вопросительный знак.')
    print(result.group(0))
else:
    print('В строке нет вопросительно знака.')

В строке есть вопросительный знак.
?


### Вернёмся к теории

Как в регулярном выражении объяснить, сколько раз нам нужно то или иное вхождение символов?

**{n}**	 Ровно n повторений

**{m,n}**	От m до n повторений включительно

**{m,}**	Не менее m повторений

**{,n}**	Не более n повторений

**?**	Ноль или одно вхождение, аналогично {0,1}

**\***	Ноль или более вхождений, аналогично {0,}

**\+**	Одно или более вхождений, аналогично {1,}

**|** логический оператор или

In [5]:
# в фигурных скобках количество повторений заданного символа, в этом случае мы ищем 3 числа после слова БЖУР
string = 'Самые умные студенты учатся в группе БЖУР192'

match_ = re.search(r'БЖУР\d{3}', string)
if match_:
    print(match_.group(), end = ', ')

БЖУР192, 

In [None]:
# в этом случае мы ищем строки из 4 чисел
import re
#r'\d{4}' — это регулярное выражение, которое ищет точно 4 последовательные цифры (\d обозначает цифру, {4} — ровно 4 повторения).

# Мы перебираем список строк all_strings и для каждой строки проверяем, есть ли в ней последовательность из 4 цифр.
# Если такая последовательность найдена, мы выводим её на экран с помощью match.group().
# Если в строке нет такой последовательности, ничего не выводится.
# Таким образом, этот код позволяет найти и вывести все строки из списка, которые содержат ровно 4 последовательные цифры.
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'\d{4}', element)
    if match:
        print(match.group(), end = ', ')

1234, 1234, 1234, 

In [None]:
# убрали ограничение на количество цифр и # в этом случае мы ищем строки из 4 чисел
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'\d{4,}', element)
    if match:
        print(match.group(), end = ', ')

1234, 12345, 123456, 

In [None]:
import re
#r'^\d{4}$' — это регулярное выражение, которое ищет ровно 4 последовательные цифры в всей строке
#^ — якорь начала строки (соответствует только если последовательность начинается с самого начала).
#\d{4} — ровно 4 цифры.
#$ — якорь конца строки (соответствует только если последовательность заканчивается в самом конце, без лишних символов).

all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'^\d{4}$', element)
    if match:
        print(match.group(), end = ', ')

1234, 

In [None]:
# зададим условие для поиска правильных Брэд Питтов
# Брэдд Питт не обижается, если его имя пишут с маленькой буквы
# но ему неприятно, если между именем и фамилией нет символа табуляции
all_strings = ['Брэд Питт', 'брэд Питт', 'брэд питт', 'брэд_питт', 'Брэд666Питт']
for element in all_strings:
    match = re.search(r'[Бб]рэд\s[Пп]итт', all_strings)
    if match:
        print(match.group(), end = ', ')

Брэд Питт, брэд Питт, брэд питт, 

#### Работа с заглавными буквами

In [21]:
# Выведите все слова
# загадочная буква ё, на которой всё ломается
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(re.search(r'[A-Яа-я\s]+', st).group(0))

у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


In [None]:
#как исправить? не забыть добавить Ё после а-я!
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
### ДОПИШИТЕ КОД

у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


Кстати, для обозначения заглавных букв нередко употребляют жаргонизм *капитализация* от английского слова capital (letter). Не пугайтесь, эта капитализация не имеет ничего общего с финансами, а просто поясняет, какими буквами написано слово.

Для того, чтобы привести все буквы к нижнему регистру используется метод `string.lower()`, а к верхнему - `string.upper()`.

In [None]:
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(st.lower())
print(st.upper())

у любви у нашей села батарейка ооооооёёёёиияяяяяиииёёёёёёёё батарейка
У ЛЮБВИ У НАШЕЙ СЕЛА БАТАРЕЙКА ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


#### Примеры посложнее

In [24]:
## найдём в слове столько i, сколько возможно
string = 'piiiiiig'
match = re.search(r'i{1,}', string)
print(match.group())

iiiiii


In [None]:

import re
#re.findall(r'i+', string) — находит все непустые последовательности символов i (группы из одного или более i):
# r'i+' — регулярное выражение: i (символ i) с + (один или более раз).

#findall() возвращает список всех совпадений (в отличие от search(), который возвращает объект Match для первого совпадения).

#print(match) — выводит список: ['ii', 'iiiiii'] (две группы: из 2 и 6 символов i).
string = 'piigiiiiii'
match = re.findall(r'i+', string)
print(match)

['ii', 'iiiiii']


In [27]:
#теперь попробуем найти не только свиней, но и мопсов (pug - мопс)
all_strings = ['pig', 'pog', 'pug', 'piug', 'pigpugpig', 'pig_pug']
for element in all_strings:
    match = re.search(r'(p[iu]g_*)+', element)
    if match:
        print(match.group(), end = ', ')

pig, pug, pigpugpig, pig_pug, 

In [36]:
# посмеялись и хватит, давайте найдём строки где не больше 5и смешков
# с условием, что кто-то смеётся с дефисом, а кто-то без
all_strings = ['ха-ха', 'ха-хаха-ха-хаха-ха','хо-хоха-хахо-хохах-ах', 'хахоха']
for element in all_strings:
    match = re.search(r'(ха-*){,5}', element)
    if match:
        print(match.group(), end = ', ')

ха-ха, ха-хаха-ха-ха, , ха, 

### Попробуем найти все e-mail'ы в строке

In [5]:
# как бы мы делали раньше
import re
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'\w+[-_]\w+@\w+\.\w+', string) # что-то, потом @, потом ещё что-то
if match:
    print(match.group())

alice-b@google.com


В этом случае поиск не дает полного адреса электронной почты, потому что `\w` не соответствует дефису или точке в адресе. Исправим это, используя функции регулярных выражений ниже. Коды `\w`, `\s` и другие работают точно так же внутри квадратных скобок. Исключение - точка (.), которая внутри скобок означает просто буквальную точку.

**Итак, собираем регулярное выражение:**

1) `[\w.-]` всё, что может находиться в адресе электронной почты

2) `[\w.-]+` добавим плюс, так как там может быть сколько угодно символов

3) `[\w.-]+@[\w.-]+` посередине знак @, готово!

In [None]:
import re
#r'\S+@\S+' — регулярное выражение для поиска email-адреса (простая версия):
#\S+ — один или более непробельных символов (до @ и после него).
#@ — символ @.

string = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'\S+@\S+', string)
if match:
    print(match.group())

alice-b@google.com



### Группировка

Функция "группировки" регулярного выражения позволяет вам выделять части совпадающего текста. Предположим, что для проблемы электронной почты мы хотим извлечь имя пользователя и хост отдельно. Для этого добавьте круглые скобки () вокруг имени пользователя и хоста в шаблоне. В этом случае круглые скобки не меняют то, чему будет соответствовать шаблон, вместо этого они создают логические «группы» внутри текста соответствия. При успешном поиске `match.group(1)` - это текст совпадения, соответствующий 1-й левой круглой скобке, а `match.group(2)` - текст, соответствующий 2-й левой скобке. Обычный `match.group()`, как обычно, по-прежнему представляет собой весь текст соответствия.

In [None]:
string = 'purple alice-b@google.com monkey dishwasher'
#([\w.-]+) — первая группа, захватывающая имя пользователя (username) в адресе электронной почты
#( — открывает захватывающую группу. Всё, что соответствует шаблону внутри скобок, сохраняется как подгруппа (доступна через match.group(1)).
#\w — соответствует любому словесному символу (буквы a-z, A-Z, цифры 0-9 или символ подчеркивания _).
#. — соответствует буквальной точке (.). В regex точка — это специальный символ, поэтому её экранируют с помощью \, чтобы она интерпретировалась как обычный символ точки.
#- — соответствует буквальному дефису (-). Дефис не требует экранирования в данном контексте, так как он не находится в начале или конце набора символов.
#[\w.-] — это класс символов, который соответствует любому одному символу из следующих: словесный символ (\w), точка (.), или дефис (-).
#+ — означает, что предыдущий шаблон ([\w.-]) должен повторяться один или более раз. То есть это строка из одного или более символов, которые могут быть буквами, цифрами, подчеркиванием, точками или дефисами.
#) — закрывает захватывающую группу.
match = re.search('([\w.-]+)@([\w.-]+)', string)
if match:
    print(match.group())   ## 'alice-b@google.com' (полное совпадение)
    print(match.group(1))  ## 'alice-b' (юзернейм)
    print(match.group(2))  ## 'google.com' (домен электронной почты)

alice-b@google.com
alice-b
google.com


### Функции кроме search()

`re.split(pattern, string, maxsplit=0)`	Аналог `str.split()`, только разделение происходит по подстрокам, подходящим под шаблон pattern;



In [None]:
# по умолчанию метод split делит строку по пробелам
'itsy, bitsy, teenie, weenie'.split()

['itsy,', 'bitsy,', 'teenie,', 'weenie']

In [None]:
#но можно добавить выражение, по которому мы делим
'itsy, bitsy, teenie, weenie'.split(',')

['itsy', ' bitsy', ' teenie', ' weenie']

In [None]:
# тоже самов с  re
string = 'itsy, bitsy, teenie, weenie'
result = re.split(',', string)
print(result)

['itsy', ' bitsy', ' teenie', ' weenie']


In [None]:
# можно указать максимальное количество разбиений
string = 'itsy, bitsy, teenie, weenie'
result = re.split(',', string, maxsplit = 2)
print(result)

['itsy', ' bitsy', ' teenie, weenie']


In [None]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка, содержащая несколько предложений
string = 'He woke up. He cooked berakfast. He drank coffee. He left home. He entered subway.'

# Используем re.split() для разбиения строки по точкам с ограничением на 2 разбиения
# \. — экранированная точка, соответствует символу точки
# maxsplit=2 — ограничивает количество разбиений до 2, чтобы получить не более 3 частей
result = re.split(r'\.', string, maxsplit=2)

# Удаляем пробелы в начале и конце каждой части с помощью list comprehension
result = [x.strip() for x in result]

# Вывод результата
print(result)

['He woke up',
 'He cooked berakfast',
 'He drank coffee. He left home. He entered subway.']

In [None]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = 'В моём сердце дырка - мне нужна таблетка'

# Используем re.split() для разбиения строки по дефису, окружённому пробелами
# r'\s*-\s*' — шаблон, где:
#   \s* — ноль или более пробельных символов (включая пробелы или табуляцию)
#   - — буквальный дефис
#   \s* — снова ноль или более пробельных символов
result = re.split(r'\s*-\s*', string)

# Удаляем пробелы в начале и конце каждой части с помощью list comprehension
result = [x.strip() for x in result]

# Вывод результата
print(result)

['В моём сердце дырка', 'мне нужна таблетка']


`re.findall(pattern, string)`	 ищет в строке `string` **все** непересекающиеся шаблоны `pattern`



In [1]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = 'я люблю котиков, кошечек, котят и котов.'

# Используем re.findall() для поиска всех слов, начинающихся с "кот"
# r'\bкот\w*\b' — шаблон, где:
#   \b — граница слова (чтобы "кот" был началом слова)
#   кот — буквальная подстрока "кот"
#   \w* — ноль или более словесных символов (буквы, цифры, подчеркивание)
#   \b — граница слова (чтобы слово завершалось)
# Затем фильтруем результат, исключая "кошечек"
result = [x for x in re.findall(r'\bкот\w*\b', string) if x != 'кошечек']

# Вывод результата
print(result)

['котиков', 'котят', 'котов']


In [3]:
import re

string = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher alice.bob@google.com, alice_bob@google.com,'

# Используем re.finditer() для получения итератора по match-объектам
emails = re.finditer(r'[\w.-]+@[\w.-]+\.\w+', string)

# Проходим по match-объектам и выводим найденные email
for match in emails:
    print(match.group())  # match.group() возвращает полный email

alice@google.com
bob@abc.com
alice.bob@google.com
alice_bob@google.com


`re.finditer(pattern, string)`	Итератор по всем непересекающимся шаблонам `pattern` в строке `string` (выдаются match-объекты)



In [10]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка с датами
string = 'Первый локдаун начался 27.03.2020, а последний - 1.11.2021'

# Используем re.finditer() для поиска всех дат в формате день(1-2 цифры).месяц(2 цифры).год(4 цифры)
# r'\d{1,2}\.\d{2}\.\d{4}' — шаблон, где:
#   \d{1,2} — 1 или 2 цифры для дня (например, 1, 27)
#   \. — буквальная точка (экранируется, так как точка — специальный символ)
#   \d{2} — ровно 2 цифры для месяца (например, 03, 11)
#   \. — ещё одна буквальная точка
#   \d{4} — ровно 4 цифры для года (например, 2020, 2021)
for match in re.finditer(r'\d{1,2}\.\d{2}\.\d{4}', string):
    # match.group() возвращает полную дату, match.start() — индекс начала совпадения в строке
    print('Дата', match.group(), 'начинается с позиции', match.start())

Дата 27.03.2020 начинается с позиции 23
Дата 1.11.2021 начинается с позиции 49


`re.match(pattern, string)`	ищет входения шаблона в НАЧАЛЕ строки

In [11]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = 'я люблю котиков, кошечек, котят и котов.'

# Используем re.match() для поиска слова, связанного с котами, в начале строки
# r'\bкот\w*\b' — шаблон, где:
#   \b — граница слова
#   кот — буквальная подстрока "кот"
#   \w* — ноль или более словесных символов (буквы, цифры, подчеркивание)
#   \b — граница слова
result = re.match(r'\bкот\w*\b', string)

# Выводим результат
print(result)

None


In [None]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = 'кот сидел на коврике'

# Используем re.match() для поиска слова "кот" в начале строки
# r'\bкот\b' — шаблон, где:
#   \b — граница слова, чтобы найти только целое слово "кот"
#   кот — буквальная подстрока "кот"
#   \b — граница слова, чтобы исключить совпадения внутри других слов
result = re.match(r'\bкот\b', string)

# Выводим полное совпадение
print(result.group(0))

кот


`re.sub(pattern, repl, string, count=0)`	заменяет в строке `string` все непересекающиеся шаблоны `pattern` на `repl`

In [None]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка, содержащая текст с упоминаниями организаций
string = ('Недавно Аль-Каида совместо с Аль-Джихадом признала себя виновной '
          'в совершении тяжких преступлений, в отношении Талибов так же будут приняты ответные меры')

# Используем re.sub() для замены слов, соответствующих шаблону
# r'Аль\-\w+|Талиб\w+' — шаблон регулярного выражения:
#   Аль\- — соответствует буквальной подстроке "Аль-" (дефис экранируется как \-)
#   \w+ — одна или более букв, цифр или подчеркиваний после "Аль-"
#   | — логическое "ИЛИ", разделяет два варианта шаблона
#   Талиб — соответствует буквальной подстроке "Талиб"
#   \w+ — одна или более букв, цифр или подчеркиваний после "Талиб"
# 'запрещенная в россии террористическая организация'.upper() — строка замены, преобразованная в верхний регистр
# string — входная строка, в которой выполняется замена
result = re.sub(
    r'Аль\-\w+|Талиб\w+',  # Шаблон для поиска слов, начинающихся с "Аль-" или "Талиб"
    'запрещенная в россии террористическая организация'.upper(),  # Заменяем на эту строку в верхнем регистре
    string  # Исходная строка
)

# Выводим результат
print(result)

Момо мыло рому.


In [None]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = 'Мама мыла раму.'

# Используем re.sub() для замены первых двух вхождений "а" на "о"
# r'а' — шаблон, соответствующий букве "а"
# 'о' — строка, на которую заменяем
# count=2 — ограничиваем количество замен до двух
result = re.sub(r'а', 'о', string, count=2)

# Вывод результата
print(result)

Момо мыло раму.


In [9]:
import re # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка, содержащая текст с упоминаниями организаций
string = ('Недавно Аль-Каида совместо с Аль-Джихадом признала себя виновной '
 'в совершении тяжких преступлений, в отношении Талибов так же будут приняты ответные меры')

# Используем re.sub() для замены слов, соответствующих шаблону
# r'Аль\-\w+|Талиб\w+' — шаблон регулярного выражения:
# Аль\- — соответствует буквальной подстроке "Аль-" (дефис экранируется как \-)
# \w+ — одна или более букв, цифр или подчеркиваний после "Аль-"
# | — логическое "ИЛИ", разделяет два варианта шаблона
# Талиб — соответствует буквальной подстроке "Талиб"
# \w+ — одна или более букв, цифр или подчеркиваний после "Талиб"
# 'запрещенная в россии террористическая организация'.upper () — строка замены, преобразованная в верхний регистр
# string — входная строка, в которой выполняется замена
result = re.sub(
 r'Аль\-\w+|Талиб\w+', # Шаблон для поиска слов, начинающихся с "Аль-" или "Талиб"
 'запрещенная в россии террористическая организация'.upper(), # Заменяем на эту строку в верхнем регистре
 string # Исходная строка
)

# Выводим результат
print(result)

Недавно ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ совместо с ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ признала себя виновной в совершении тяжких преступлений, в отношении ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ так же будут приняты ответные меры


`re.compile` компилирует регулярное выражение в отдельный объект

In [7]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."

# Компилируем регулярное выражение для поиска всех слов
# r'\b[а-яА-Яa-zA-Z]+(?:-[а-яА-Яa-zA-Z]+)*\b' — шаблон, где:
#   \b — граница слова
#   [а-яА-Яa-zA-Z]+ — одна или более букв (кириллические или латинские)
#   (?:-[а-яА-Яa-zA-Z]+)* — необязательные группы с дефисом и буквами (для слов типа "Что-то")
#   \b — граница слова
prog = re.compile(r'\b[а-яА-Яa-zA-Z]+(?:-[а-яА-Яa-zA-Z]+)*\b')

# Используем findall() для поиска всех слов
result = prog.findall(string)

# Вывод результата
print(result)

['Слова', 'Да', 'больше', 'больше', 'слов', 'Что-то']


In [6]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."

# Компилируем регулярное выражение для поиска слов длиннее трёх символов
# r'\b[а-яА-Яa-zA-Z]{4,}\b' — шаблон, где:
#   \b — граница слова
#   [а-яА-Яa-zA-Z] — любая буква (кириллическая или латинская)
#   {4,} — четыре или более букв
#   \b — граница слова
prog = re.compile(r'\b[а-яА-Яa-zA-Z]{4,}\b')

# Используем findall() для поиска всех подходящих слов
result = prog.findall(string)

# Вывод результата
print(result)

['Слова', 'больше', 'больше', 'слов']


In [5]:
import re  # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."

# Компилируем регулярное выражение для поиска первого слова
# r'^\w+' — шаблон, где:
#   ^ — начало строки
#   \w+ — одна или более букв, цифр или подчеркиваний (словесные символы)
prog = re.compile(r'^\w+')

# Используем match() для поиска совпадения с начала строки
# group(0) возвращает полное совпадение
result = prog.match(string).group(0)

# Вывод результата
print(result)

Слова




`re.IGNORECASE` позволяет не различать заглавные и маленькие буквы. Работает медленнее, но иногда удобно.

In [None]:
import re # Импортируем модуль re для работы с регулярными выражениями

# Исходная строка
string = 'ОООО ааааа оооо ММММ мМммМММм'

# Используем re.findall() для поиска всех последовательностей одинаковых букв
# r'(\w)\1*' — шаблон, где:
# (\w) — захватывает один словесный символ (буква, цифра, подчеркивание)
# \1* — повторяет захваченный символ ноль или более раз
# Флаг re.IGNORECASE не нужен, так как мы хотим точное совпадение букв
result = re.findall(r'(\w)\1*', string)

# Вывод результата
print(result)

['ОООО', 'ааааа', 'оооо', 'ММММ', 'мМммМММм']


### Где потренироваться в регулярных выражениях?

* [https://pythex.org/](https://pythex.org/)

* [https://regex101.com/r/F8dY80/3](https://regex101.com/r/F8dY80/3)

### Cамостоятельные задачки для самых активных NLPшников


#### Текст для примера для задач 1-3

Сегодня в пресс-релизе МИД РФ и NASA ESA, а также ООН ЮНЕСКО, объявили о совместном пилотном проекте. Во встрече в Берлине приняли участие Анна Петрова и Михаил Иванов, а координатором выступил Виктор Сергеев. Компания ООО РОМАШКА и НИИ МЕХАНИКИ обязались подготовить отчёт до 05.03.2007, тогда как рабочую сессию перенесли на 7/11/07; резервная дата указана как 12-04-07. Кроме того, НАТО и ЦУМ поддержали информационную кампанию, ИП ПЕТРОВ выступит подрядчиком по логистике, а консультантом станет Екатерина Смирнова. Вчера я обсуждал детали с Иваном в кафе на набережной Волги и отправил письмо в адрес ESA и МИД РФ.



**Задача №1**

Собрать все аббревиатуры

Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они считаются одной аббревиатурой.

In [None]:
# Текст, в котором будем искать аббревиатуры
text = "Сегодня в пресс-релизе МИД РФ и NASA ESA, а также ООН ЮНЕСКО, объявили о совместном пилотном проекте. Во встрече в Берлине приняли участие Анна Петрова и Михаил Иванов, а координатором выступил Виктор Сергеев. Компания ООО РОМАШКА и НИИ МЕХАНИКИ обязались подготовить отчёт до 05.03.2007, тогда как рабочую сессию перенесли на 7/11/07; резервная дата указана как 12-04-07. Кроме того, НАТО и ЦУМ поддержали информационную кампанию, ИП ПЕТРОВ выступит подрядчиком по логистике, а консультантом станет Екатерина Смирнова. Вчера я обсуждал детали с Иваном в кафе на набережной Волги и отправил письмо в адрес ESA и МИД РФ."
# Регулярное выражение
pattern = r'[A-ZА-ЯЁ]{2,}(?:\s[A-ZА-ЯЁ]{2,})*\b'
# Находит все совпадения, соответствующие паттерну
matches = re.findall(pattern, text)
# Выводит список найденных аббревиатур
print(matches)
#[A-ZА-ЯЁ] — множество символов, сюда входят все заглавные латинские буквы от A до Z, а также заглавные русские буквы от А до Я и буква Ё. Это означает, что в этом месте регулярное выражение ищет один заглавный символ из этих диапазонов.
#{2,} — квантификатор, который означает две и более повторений предыдущего символа или группы. 
#(?: ... ) — незахватывающая группа, то есть группа, которая объединяет часть выражения, но не создает отдельного подмассива захвата для результата. Используется для логики компоновки.
#\s — соответствует любому пробельному символу (пробел, табуляция, перевод строки и т.п.).
#[A-ZА-ЯЁ]{2,} — то же, что и в первой части, слово из минимум двух заглавных букв.
#(?:\s[A-ZА-ЯЁ]{2,})*
#\b - граница слова

['МИД РФ', 'NASA ESA', 'ООН ЮНЕСКО', 'ООО РОМАШКА', 'НИИ МЕХАНИКИ', 'НАТО', 'ЦУМ', 'ИП ПЕТРОВ', 'ESA', 'МИД РФ']


**Задача №2**

Найти дату в строке. В отличие от прошлого примера год может записыватьс двумя способами - 2007 или 07, то есть 4 или 2 символа, вывести месяц.

In [None]:
# Текст, в котором будем искать аббревиатуры
text = "Сегодня в пресс-релизе МИД РФ и NASA ESA, а также ООН ЮНЕСКО, объявили о совместном пилотном проекте. Во встрече в Берлине приняли участие Анна Петрова и Михаил Иванов, а координатором выступил Виктор Сергеев. Компания ООО РОМАШКА и НИИ МЕХАНИКИ обязались подготовить отчёт до 05.03.2007, тогда как рабочую сессию перенесли на 7/11/07; резервная дата указана как 12-04-07. Кроме того, НАТО и ЦУМ поддержали информационную кампанию, ИП ПЕТРОВ выступит подрядчиком по логистике, а консультантом станет Екатерина Смирнова. Вчера я обсуждал детали с Иваном в кафе на набережной Волги и отправил письмо в адрес ESA и МИД РФ."
# Регулярное выражение
# (\d{1,2}) - захват дня (1 или 2 цифры)
# [./-] - разделитель (точка, слеш или дефис)
# (\d{1,2})
# \d обозначает любую цифру от 0 до 9 
# (\d{2}|\d{4}) - год, либо 2 цифры, либо 4 цифры
pattern = r'(\d{1,2})[./-](\d{1,2})[./-](\d{2}|\d{4})'

# Функция re.findall() из модуля re ищет все неперекрывающиеся совпадения

matches = re.findall(pattern, text)

# Выводим только месяц из всех найденных дат

months = [match[1] for match in matches]

print("Найденные месяцы:", months)




Найденные месяцы: ['03', '11', '04']


**Задача №3**

Найти все имена собственные в тексте. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

В данном случае, будем считать что имя собственное - слово, начинающеся с большой буквы. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

In [None]:
text = "Сегодня в пресс-релизе МИД РФ и NASA ESA, а также ООН ЮНЕСКО, объявили о совместном пилотном проекте. Во встрече в Берлине приняли участие Анна Петрова и Михаил Иванов, а координатором выступил Виктор Сергеев. Компания ООО РОМАШКА и НИИ МЕХАНИКИ обязались подготовить отчёт до 05.03.2007, тогда как рабочую сессию перенесли на 7/11/07; резервная дата указана как 12-04-07. Кроме того, НАТО и ЦУМ поддержали информационную кампанию, ИП ПЕТРОВ выступит подрядчиком по логистике, а консультантом станет Екатерина Смирнова. Вчера я обсуждал детали с Иваном в кафе на набережной Волги и отправил письмо в адрес ESA и МИД РФ."

#(?<! ... ) - это конструкция негативного просмотра назад проверяет что перед текущей позицией НЕ находится указанный в скобках шаблон.

#[.!?] - символьный класс, сопоставляющий один символ из множества: точка ., восклицательный знак ! или вопросительный знак ?

# \s - пробельный символ, любой из этих: пробел, табуляция, перевод строки 

# (?!<[.!?]\s) означает: перед рассматриваемой позицией в строке не должно стоять сочетание "знак конца предложения (., !, ?) + пробел"

# \b - граница слова, гарантирует, что поиск начинается на границе слова.

#[А-ЯЁ] - одна заглавная буква русского алфавита включая букву Ё

#[а-яё]+ один или более символов из строчных букв русского алфавита, включая букву ё

# \b - граница слова в конце, чтобы слово было целиком

import re

text = "Сегодня в пресс-релизе МИД РФ и NASA ESA, а также ООН ЮНЕСКО, объявили о совместном пилотном проекте. Во встрече в Берлине приняли участие Анна Петрова и Михаил Иванов, а координатором выступил Виктор Сергеев."

# Регулярное выражение для поиска слов из одной заглавной буквы плюс маленькие, 
# которые не стоят в начале предложения. 
# Идея: захватываем слова с первой заглавной буквой, перед которыми есть пробел или знаки препинания, но не точка+пробел (начало предложения)
pattern = r'(?<![.!?]\s)(?<!^)\b[А-ЯЁ][а-яё]+\b'

# Функция re.findall() из модуля re ищет все неперекрывающиеся совпадения

matches = re.findall(pattern, text)

print("Найденные имена собственные (не в начале предложения):", matches)



Найденные имена собственные (не в начале предложения): ['Берлине', 'Анна', 'Петрова', 'Михаил', 'Иванов', 'Виктор', 'Сергеев']


#### Это список строк для задач 5, 6

list_of_strings = ["ПриветМир",
                   "abcXYZ",
                   "МарияАнтуанетта",
                   "über",
                   "abc-xyz",
                   "abc_123",
                   "хлеб",
                   "арбузб",
                   "арбузБ",
                   "баб",
                   "ббабб",
                   "б",
                   "бббаббаб",
                   "ба",
                   "аб",
                   "аба",
                   "а",
                   "Ваня Ваня пришёл вовремя",
                   "что что это же очевидно бабушка",
                   "мы просто говорим тут",
                   "123 это строка и заканчивается словом финал",
                   "+42 пример строки с числом в начале и словом на конце слово",
                   "7 а тут в конце восклицание!", "В пещере цвет выцвел, и ворон каркнул громко.",
                   "цветы не считаются, зато ворон тут есть.", "This is fine.",
                   "The bag is empty.",
                   "'Hello', she said softly.",
                   "(Well) this is fine.",
                   "It's nice.",
                   "Re-enter the room."]

### --Задание 5--

Напишите регулярные выражения поиска.

1. множества всех строк, состоящих только из букв;
2. множества всех строк из строчных букв, оканчивающихся на букву б;
3. множества всех строк над алфавитом {а, б}, в которых каждой букве a предшествует и за каторой слебуем буква б (то есть каждая a стоит в контексте бaб).

### --Задание 6--
Напишите регулярные выражения для поиска

1. множества всех строк с двумя подряд идущими повторяющимися словами (например, «Ваня Ваня» и «что что», но не «что ты» и не «что ты наделал»);
2. множества всех строк, которые начинаются в начале строки с целого числа и оканчиваются в конце строки словом;
3. множества всех строк, в которых встречаются и слово «цвет», и слово «ворон» (но не, например, слова вроде «цветы», которые лишь содержат подстроку «цвет»);
4. напишите шаблон, который помещает первое слово английского предложения в группу и помещает его в конец предложения. Учтите пунктуацию.

In [None]:
list_of_strings = ["ПриветМир",
                   "abcXYZ",
                   "МарияАнтуанетта",
                   "über",
                   "abc-xyz",
                   "abc_123",
                   "хлеб",
                   "арбузб",
                   "арбузБ",
                   "баб",
                   "ббабб",
                   "б",
                   "бббаббаб",
                   "ба",
                   "аб",
                   "аба",
                   "а",
                   "Ваня Ваня пришёл вовремя",
                   "что что это же очевидно бабушка",
                   "мы просто говорим тут",
                   "123 это строка и заканчивается словом финал",
                   "+42 пример строки с числом в начале и словом на конце слово",
                   "7 а тут в конце восклицание!", "В пещере цвет выцвел, и ворон каркнул громко.",
                   "цветы не считаются, зато ворон тут есть.", "This is fine.",
                   "The bag is empty.",
                   "'Hello', she said softly.",
                   "(Well) this is fine.",
                   "It's nice.",
                   "Re-enter the room."]

# Первое регулярное выражение множество всех строк, состоящих только из букв (как латинских, так и кириллических):

#^[A-Za-zА-Яа-яЁё]+$

# ^ — начало строки.

# [A-Za-zА-Яа-яЁё] — любой символ из латинского (A-Z, a-z) или русского алфавита (А-Я, а-я, включая Ё и ё).

# + — один или более таких символов.

# $ — конец строки.

# Множество всех строк из строчных букв, которые оканчиваются на букву "б":

#^[а-яё]+б$

#^ — начало строки.

#[а-яё]+ — один или более строчных русских букв (включая букву ё).

#б — последний символ должен быть именно буква "б".

#$ — конец строки.

# Множество всех строк над алфавитом {а, б}, в которых каждой букве а предшествует и за которой следует буква б. То есть каждая a стоит в контексте бaб:

#^(баб)+$

#^ — начало строки.

#(баб)+ — один или более повторов последовательности баб.

#$ — конец строки.

strings = ["Привет", "abcXYZ", "мария", "абв", "aaaб", "баб", "бaб", "бабаб"]

pattern1 = re.compile(r'^[A-Za-zА-Яа-яЁё]+$')
pattern2 = re.compile(r'^[а-яё]+б$')
pattern3 = re.compile(r'^(баб)+$')

print([s for s in list_of_strings if pattern1.match(s)])
print([s for s in list_of_strings if pattern2.match(s)])
print([s for s in list_of_strings if pattern3.match(s)])




['ПриветМир', 'abcXYZ', 'МарияАнтуанетта', 'хлеб', 'арбузб', 'арбузБ', 'баб', 'ббабб', 'б', 'бббаббаб', 'ба', 'аб', 'аба', 'а']
['хлеб', 'арбузб', 'баб', 'ббабб', 'бббаббаб', 'аб']
['баб']


In [None]:
#Задание 6 
import re
list_of_strings = [
    "ПриветМир", "abcXYZ", "МарияАнтуанетта", "über", "abc-xyz", "abc_123",
    "хлеб", "арбузб", "арбузБ", "баб", "ббабб", "б", "бббаббаб", "ба", "аб",
    "аба", "а", "Ваня Ваня пришёл вовремя", "что что это же очевидно бабушка",
    "мы просто говорим тут", "123 это строка и заканчивается словом финал",
    "+42 пример строки с числом в начале и словом на конце слово",
    "7 а тут в конце восклицание!", "В пещере цвет выцвел, и ворон каркнул громко.",
    "цветы не считаются, зато ворон тут есть.", "This is fine.", "The bag is empty.",
    "'Hello', she said softly.", "(Well) this is fine.", "It's nice.", "Re-enter the room."
]

# задание 1: множества всех строк с двумя подряд идущими повторяющимися словами
pattern1 = r'(\w+)\s+\1'
#\w: Соответствует любому символу слова (буквам, цифрам, символам подчеркивания; включает кириллицу из-за поддержки Unicode в Python).
#+: Соответствует одному или нескольким вхождениям \w (обеспечивает непустое слово).
#\s+: Соответствует одному или нескольким пробельным символам (пробелы, табуляции, переводы строк).
#\1: обратная ссылка на группу захвата 1, совпадающая с тем же словом, что и captured.
for s in list_of_strings:
    if re.search(pattern1, s):
        print(f"Task 1 Match: {s}")

# задание 2: множества всех строк, которые начинаются в начале строки с целого числа и оканчиваются в конце строки словом
pattern2 = r'^\d+\s+.*\b[a-zA-Zа-яА-Я]+$'
#^: Привязка матча к началу строки.
#\d: Соответствует любой цифре (0–9).
#+: Соответствует одной или нескольким цифрам.
#\s+: Соответствует одному или нескольким пробельным символам.
#.*: Сопоставляет любые символы (ноль или более) до последнего слова.
#\b: Граница слова для обеспечения четкого окончания последнего слова.
#[a-zA-Zа-яА-Я]+: Соответствует одному или нескольким буквенным символам (как латинским, так и кириллическим).
#+: Соответствует одной или нескольким буквам.
#$: Привязка матча к концу строки.
for s in list_of_strings:
    if re.match(pattern2, s):
        print(f"Task 2 Match: {s}")

# задание 3: множества всех строк, в которых встречаются и слово «цвет», и слово «ворон»
pattern3 = r'\bцвет\b.*\bворон\b|\bворон\b.*\bцвет\b'
#\b: Граница слова, гарантирующая, что "цвет" является отдельным словом.
#цвет: Буквальное соответствие кириллического слова "цвет".
#\b: Граница слова после "цвет".
#.*: Сопоставляет любые символы (ноль или более) между "цвет" и "ворон".
#|: Логический оператор "или", позволяющий искать "ворон" перед "цвет".
#\bворон\b: Соответствует слову "ворон" как отдельному слову (границы слова).
# \bцвет\b: Соответствует слову "цвет" как отдельному слову (границы слова).
for s in list_of_strings:
    if re.search(pattern3, s):
        print(f"Task 3 Match: {s}")

# задание 4: напишите шаблон, который помещает первое слово английского предложения в группу и помещает его в конец предложения. Учтите пунктуацию
pattern4 = r'^([a-zA-Z]+)\s+(.*)([.!?]?)$'
#^: Привязка к началу строки.
#([a-zA-Z]+): Группа захвата 1, соответствующая первому слову (одна или несколько латинских букв).
#\s+: Соответствует одному или нескольким пробельным символам после первого слова.
#(.*): Группа захвата 2, соответствующая остальной части предложения (любые символы, ноль или более).
#([.!?]?): Группа захвата 3, соответствующая необязательному знаку препинания в конце предложения (точка, восклицательный знак или вопросительный знак).
#$: Привязка к концу строки.
for s in list_of_strings:
    match = re.match(pattern4, s)
    if match:
        result = f"{match.group(2)} {match.group(1)}{match.group(3)}"
        print(f"Task 4 Original: {s}")
        print(f"Task 4 Modified: {result}")


Task 1 Match: Ваня Ваня пришёл вовремя
Task 1 Match: что что это же очевидно бабушка
Task 1 Match: This is fine.
Task 1 Match: (Well) this is fine.
Task 2 Match: 123 это строка и заканчивается словом финал
Task 3 Match: В пещере цвет выцвел, и ворон каркнул громко.
Task 4 Original: This is fine.
Task 4 Modified: is fine. This
Task 4 Original: The bag is empty.
Task 4 Modified: bag is empty. The


In [None]:
Решение задания 7 на английском на google colab https://colab.research.google.com/drive/1phXFGmNS6XniXFUr2XqKYUCohrEXWBWG?usp=sharing

### Задание 7

## вариант 1 (на примере английского языка)
Цель

Реализовать простейшего чат-бота в стиле ELIZA — диалог на основе шаблонных подстановок (регулярных выражений). Бот распознаёт некоторые речевые шаблоны в реплике пользователя и отвечает заранее заготовленными фразами, иногда повторяя части исходной реплики.

Допускается выбрать иной «домен» (например, «коуч по продуктивности», «техподдержка», «фитнес-тренер»), но важно, чтобы предметная область позволяла строить простые повторяющиеся шаблоны.

Минимальные требования к решению

Нормализация входа: приведите текст к единому регистру (проще — к ВЕРХНЕМУ) или используйте re.IGNORECASE.

Правила (pattern → response): храните набор пар «регулярное выражение → шаблон ответа».

Порядок применения: идите по списку правил сверху вниз и используйте первое совпадение (или случайно выбирайте из нескольких ответов для одного и того же паттерна).

Захватывающие группы: используйте скобки (...) и ссылки \1, \2, чтобы подставлять фрагменты из исходной реплики в ответ.

Фолбэк (по желанию, но полезно): если ни одно правило не сработало, верните нейтральный ответ («PLEASE, GO ON.») или «эхо-ответ» с отражением местоимений (I→YOU, my→YOUR и т. п.).

Пример набора правил (как в условии)
re.sub(r".* I AM (DEPRESSED|SAD) .*", r"I AM SORRY TO HEAR YOU ARE \1", input)
re.sub(r".* I AM (DEPRESSED|SAD) .*", r"WHY DO YOU THINK YOU ARE \1", input)
re.sub(r".* ALWAYS .*",                 r"CAN YOU THINK OF A SPECIFIC EXAMPLE", input)

    Что делает каждое правило

    .* YOU ARE (DEPRESSED|SAD) .*
    Ищет в строке фразу I AM и одно из слов DEPRESSED или SAD.

    .* — «любой текст» до/после (жадное соответствие).

    (DEPRESSED|SAD) — захватывающая группа: попадёт либо DEPRESSED, либо SAD.

    В ответах \1 вставит совпавшее слово (DEPRESSED/SAD).

    .* ALWAYS .*
    Срабатывает, если в тексте встречается слово/подстрока ALWAYS

    Примечание о регистре: чтобы шаблоны сработали, вход обычно переводят в верхний регистр (input.upper()), либо включают флаг re.IGNORECASE.


Ниже —  примеры коротких диалогов для демонстрации ELIZA с шаблонами на базе регулярок. Реплики ELIZA — в ВЕРХНЕМ РЕГИСТРЕ.

1. (ALWAYS)
User: They always complain about me.
ELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE

2. (ALWAYS)
User: You always interrupt me during meetings.
ELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE

3. (YOU ARE (DEPRESSED|SAD) — через отражение “I’m → YOU ARE”)
User: I’m depressed lately.
ELIZA: I AM SORRY TO HEAR YOU ARE DEPRESSED

4. (YOU ARE (DEPRESSED|SAD) — альтернативный ответ)
User: I’m sad most evenings.
ELIZA: WHY DO YOU THINK YOU ARE SAD

5. (I NEED …)
User: I need more time to finish this.
ELIZA: WHY DO YOU NEED MORE TIME TO FINISH THIS

6. (I WANT …)
User: I want a new job.
ELIZA: WHY DO YOU WANT A NEW JOB

7. (BECAUSE …)
User: I left early because I was tired.
ELIZA: IS THAT THE REAL REASON

8. (FAMILY/RELATION — MOTHER)
User: My mother worries about my choices.
ELIZA: TELL ME MORE ABOUT YOUR MOTHER

9. (RELATION — BOYFRIEND)
User: My boyfriend made me come here.
ELIZA: YOUR BOYFRIEND MADE YOU COME HERE

10. (Фолбэк с отражением местоимений)
User: My manager pushed me too hard.
ELIZA: YOUR MANAGER PUSHED YOU TOO HARD

11. (Фолбэк с отражением местоимений)
User: My cat annoys me sometimes.
ELIZA: YOUR CAT ANNOYS YOU SOMETIMES

12. (Фолбэк — нейтральная реакция, ни один шаблон не сработал)
User: The weather is fine today.
ELIZA: PLEASE, GO ON.





Решение задания 7 на английский вариант на google colab https://colab.research.google.com/drive/1phXFGmNS6XniXFUr2XqKYUCohrEXWBWG?usp=sharing

В виртуальной среде есть проблемы с выводом строки чтобы отвечать ELiz! Пожтому сделал два отдельных блокнота и дал ссылки

Решение задания 7 на английский вариант на google colab https://colab.research.google.com/drive/1phXFGmNS6XniXFUr2XqKYUCohrEXWBWG?usp=sharing

Задание 7 Русский вариант по ссылке https://colab.research.google.com/drive/1NjYteMUj5fNH0deohqbj9jawZoc3huuL?usp=sharing

### Задание 7

## вариант 2 (на примере русского языка)

Цель

Сделать простого чат-бота в стиле ELIZA на русском. Бот распознаёт шаблоны в реплике пользователя (через регулярные выражения) и отвечает заготовленными фразами, иногда повторяя части исходной реплики.

Что требуется

Нормализовать ввод: либо переводите реплику в ВЕРХНИЙ РЕГИСТР (text.upper()), либо используйте re.IGNORECASE.

Сопоставлять правила сверху вниз: каждое правило — это пара (паттерн, шаблон ответа); срабатывает первое подходящее.

Использовать группы: скобки (...) и ссылки \1, \2 для подстановки фрагментов.

Фолбэк: если нет совпадений — нейтральный ответ («ПРОДОЛЖАЙ, ПОЖАЛУЙСТА.») или «эхо» с отражением местоимений (я→ты, мне→тебе, мой→твой и т. п.).

Базовый набор правил (пример)

Ниже — минимальные русскоязычные аналоги популярных правил ELIZA.

# 1) Утверждения про грусть/упадок (после отражения «я»→«ты»)
r".*\bТЫ (ГРУСТИШЬ|УНЫВАЕШЬ|ПЕЧАЛИШЬСЯ|РАССТРОЕН(?:А)?)\b.*"
→ "МНЕ ЖАЛЬ СЛЫШАТЬ, ЧТО ТЫ \1."
или
→ "ПОЧЕМУ ТЫ ДУМАЕШЬ, ЧТО ТЫ \1?"

# 2) Обобщения «всегда»
r".*\bВСЕГДА\b.*"
→ "МОЖЕШЬ ПРИВЕСТИ КОНКРЕТНЫЙ ПРИМЕР?"

# 3) Потребности и желания
r".*\bМНЕ НУЖНО\b\s+(.+)"
→ "ПОЧЕМУ ТЕБЕ НУЖНО \1?"

r".*\bЯ ХОЧУ\b\s+(.+)"
→ "ПОЧЕМУ ТЫ ХОЧЕШЬ \1?"

# 4) Причины
r".*\bПОТОМУ ЧТО\b\s+(.+)"
→ "ЭТО ИСТИННАЯ ПРИЧИНА?"

# 5) Близкие/отношения (ответ без склонения, чтобы избежать грамматических ловушек)
r".*\b(МАМА|ПАПА|ПАРЕНЬ|ДЕВУШКА|МУЖ|ЖЕНА|ДРУГ|ПОДРУГА)\b.*"
→ "РАССКАЖИ ПОДРОБНЕЕ О СВОИХ ОТНОШЕНИЯХ."

Отражение местоимений (минимум)

Перед проверкой правил (или в фолбэке) полезно применить простые замены:

\bя\b → ТЫ, \bменя\b → ТЕБЯ, \bмне\b → ТЕБЕ, \bмой\b → ТВОЙ, \bмоя\b → ТВОЯ, \bмои\b → ТВОИ

\bмы\b → ВЫ, \bнаш\b → ВАШ, \bнаши\b → ВАШИ

(опционально в обратную сторону для «ты→я», если хотите отвечать от первого лица)

Примеры диалогов (русский)

1. (ВСЕГДА)
User: Они всегда критикуют меня.
ELIZA: МОЖЕШЬ ПРИВЕСТИ КОНКРЕТНЫЙ ПРИМЕР?

2. (ВСЕГДА)
User: Ты всегда перебиваешь меня на встречах.
ELIZA: МОЖЕШЬ ПРИВЕСТИ КОНКРЕТНЫЙ ПРИМЕР?

3. (ГРУСТЬ — через отражение «я»→«ты»)
User: Я грущу последние дни.
ELIZA: МНЕ ЖАЛЬ СЛЫШАТЬ, ЧТО ТЫ ГРУСТИШЬ.

4. (ГРУСТЬ — альтернативный ответ)
User: Я часто бываю расстроена.
ELIZA: ПОЧЕМУ ТЫ ДУМАЕШЬ, ЧТО ТЫ РАССТРОЕНА?

5. (МНЕ НУЖНО …)
User: Мне нужно больше времени на проект.
ELIZA: ПОЧЕМУ ТЕБЕ НУЖНО БОЛЬШЕ ВРЕМЕНИ НА ПРОЕКТ?

6. (Я ХОЧУ …)
User: Я хочу сменить работу.
ELIZA: ПОЧЕМУ ТЫ ХОЧЕШЬ СМЕНИТЬ РАБОТУ?

7. (ПОТОМУ ЧТО …)
User: Я ушёл раньше, потому что устал.
ELIZA: ЭТО ИСТИННАЯ ПРИЧИНА?

8. (БЛИЗКИЕ)
User: Моя мама очень волнуется из-за меня.
ELIZA: РАССКАЖИ ПОДРОБНЕЕ О СВОИХ ОТНОШЕНИЯХ.

9. (Фолбэк с отражением местоимений)
User: Мой начальник давит на меня.
ELIZA: ТВОЙ НАЧАЛЬНИК ДАВИТ НА ТЕБЯ.

10. (Фолбэк — нейтрально)
User: Погода сегодня отличная.
ELIZA: ПРОДОЛЖАЙ, ПОЖАЛУЙСТА.

Задание 7 Русский вариант по ссылке https://colab.research.google.com/drive/1NjYteMUj5fNH0deohqbj9jawZoc3huuL?usp=sharing

Задание 7 Русский вариант по ссылке https://colab.research.google.com/drive/1NjYteMUj5fNH0deohqbj9jawZoc3huuL?usp=sharing