> *Когда некоторые люди сталкиваются с проблемой, думают «Я знаю, я решу её с помощью регулярных выражений.» Теперь у них две проблемы*

## Регулярные выражения

Регулярное выражение — это строка, задающая шаблон поиска подстрок в тексте. Одному шаблону может соответствовать много разных строчек. 

Термин «Регулярные выражения» является переводом английского словосочетания «Regular expressions». Перевод не очень точно отражает смысл, правильнее было бы «шаблонные выражения». Регулярное выражение, или коротко «регулярка», состоит из обычных символов и специальных командных последовательностей. Например, `\d` задаёт любую цифру, а `\d*` — задает любую последовательность из нуля или более цифр

### Начнем с простых текстовых шаблонов

В Python поиску по шаблону обучно используется функция `search` из библиотеки `re`:
````
match = re.search(pattern, string)
````

In [2]:
import re

Метод `re.search()` принимает шаблон `pattern` и строку `string`, а затем ищет этот шаблон в строке. 

Если поиск успешен, `search()` возвращает подстроку, которая удовлетворяет поиску, в противном случае - `None. 


Давайте с помощью этого метода попробуем найти в строке котов:

In [None]:
string = 'Я люблю котиков и мятные пряники'
match = re.search( ### ДОПИШИТЕ КОД)
if match:
    print('Нашёл слово:', match.group())
else:
    print('В этом тексте нет котов :(')

Нашёл слово: котиков


Код `match = re.search(r'какая-то регулярка', str)` сохраняет результат поиска в переменную с именем `match`. Если поиск завершился успешно, то `match.group()` является совпадающим текстом


## Основные спецсимволы

Для задания шаблонов в регулярных выражениях используются спецсимволы.

Давайте посмотрим основные из них:

**.**   Один любой символ, кроме новой строки

**\d**	Любая цифра

**\D**	Любой символ, кроме цифры

**\s**	Любой пробельный символ (пробел, табуляция, конец строки и т.п.)

**\S**	Любой непробельный символ	(не пробел, не табуляция, не конец строки и т.п.)

**\w**	Любая буква (то, что может быть частью слова), а также цифры и _

**\W**	Любая не-буква, не-цифра и не подчёркивание	

**[..]**	Один из символов в скобках в рамках диапазона, то есть:

**\d** равносильно выражению `[0-9]`

**\D** равносильно выражению `[^0-9]`, так как символ ^ означает любой символ, кроме перечисленных

**\w** равносильно выражению `[0-9a-zA-Z]`, эта запись сочетает в себе последовательность из любых цифр, букв в обоих регистрах

**\s** равносильно `[\f\n\r\t]` (тут надо постараться, чтобы вспомнить что есть что!)

**\b** Начало или конец слова (слева пусто или не-буква и справа буква, или наоборот). В отличие от предыдущих соответствует позиции, а не символу.

**^ и $**	тоже обозначение начало и конца строки соответственно

Кстати, любая строка, в которой нет символов, сама по себе является регулярным выражением. Так, выражению "привет" будет соответствовать строка “привет” и только она. Регулярные выражения являются регистрозависимыми, поэтому строка “ПрИвЕт” уже не подойдёт. Подобно строкам в языке Python, регулярные выражения имеют спецсимволы `**.^$*+?{}[]\|()**`, которые в регулярках являются управляющими конструкциями. Для написания их просто как символов требуется их экранировать, для чего нужно поставить перед ними знак \

Например, если вы хотите найти выражение в скобках, то надо написать `\(\w*\)`.

### Посмотрим на примеры!

In [None]:
# зададим шаблон: любой символ  + окончание "ом" и посмотрим, какие примеры подойдут
all_strings = ['дом', 'ком', 'космодром', '5ом', '666ом', '_ом', 'ом']
for element in all_strings:
    match_ = re.search( ### ДОПИШИТЕ КОД
    if match_:
        print(match_.group(), end = ', ')

дом, ком, ром, 5ом, 6ом, _ом, 

In [None]:
# проверим есть ли в строке вопросительный знак
string = 'Как дела?'
result = re.search(### ДОПИШИТЕ КОД
if result:
    print('В строке есть вопросительный знак.')
    print(result.group(0))
else:
    print('В строке нет вопросительно знака.')

В строке есть вопросительный знак.
?


### Вернёмся к теории

Как в регулярном выражении объяснить, сколько раз нам нужно то или иное вхождение символов?

**{n}**	 Ровно n повторений	

**{m,n}**	От m до n повторений включительно	

**{m,}**	Не менее m повторений	

**{,n}**	Не более n повторений	

**?**	Ноль или одно вхождение, аналогично {0,1}

**\***	Ноль или более вхождений, аналогично {0,}

**\+**	Одно или более вхождений, аналогично {1,}	

**|** логический оператор или 

In [None]:
# в фигурных скобках количество повторений заданного символа, в этом случае мы ищем 3 числа после слова БЖУР
string = 'Самые умные студенты учатся в группе БЖУР192'

match_ = re.search(### ДОПИШИТЕ КОД
if match_:
    print(match_.group(), end = ', ')

БЖУР192, 

In [None]:
# в этом случае мы ищем строки из 4 чисел 
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(### ДОПИШИТЕ КОД
    if match:
        print(match.group(), end = ', ')

1234, 1234, 1234, 

In [None]:
# убрали ограничение на количество цифр и # в этом случае мы ищем строки из 4 чисел 
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(r'\d{4,}', element)
    if match:
        print(match.group(), end = ', ')

1234, 12345, 123456, 

In [None]:
# если нам надо найти последовательности ТОЛЬКО из 4х чисел, то нуно добавить знак $ в конеч строки
all_strings = ['1', '12', '123','1234', '12345', '123456']
for element in all_strings:
    match = re.search(### ДОПИШИТЕ КОД
    if match:
        print(match.group(), end = ', ')

1234, 

In [None]:
# зададим условие для поиска правильных Брэд Питтов
# Брэдд Питт не обижается, если его имя пишут с маленькой буквы
# но ему неприятно, если между именем и фамилией нет символа табуляции
all_strings = ['Брэд Питт', 'брэд Питт', 'брэд питт', 'брэд_питт', 'Брэд666Питт']
for element in all_strings:
    match = re.search(r'### ДОПИШИТЕ КОД
    if match:
        print(match.group(), end = ', ')

Брэд Питт, брэд Питт, брэд питт, 

#### Работа с заглавными буквами

In [None]:
# Выведите все слова
# загадочная буква ё, на которой всё ломается
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(re.search(r### ДОПИШИТЕ КОД).group(0))

<re.Match object; span=(0, 37), match='у любви у нашей села батарейка ОООООО'>


In [None]:
#как исправить? не забыть добавить Ё после а-я!
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
### ДОПИШИТЕ КОД

у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


Кстати, для обозначения заглавных букв нередко употребляют жаргонизм *капитализация* от английского слова capital (letter). Не пугайтесь, эта капитализация не имеет ничего общего с финансами, а просто поясняет, какими буквами написано слово.

Для того, чтобы привести все буквы к нижнему регистру используется метод `string.lower()`, а к верхнему - `string.upper()`.

In [None]:
st = 'у любви у нашей села батарейка ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА'
print(st.lower())
print(st.upper())

у любви у нашей села батарейка ооооооёёёёиияяяяяиииёёёёёёёё батарейка
У ЛЮБВИ У НАШЕЙ СЕЛА БАТАРЕЙКА ООООООЁЁЁЁИИЯЯЯЯЯИИИЁЁЁЁЁЁЁЁ БАТАРЕЙКА


#### Примеры посложнее

In [None]:
## найдём в слове столько i, сколько возможно
string = 'piiiiiig'
match = re.search(### ДОПИШИТЕ КОД
print(match.group())

piiiiii


In [None]:
## сталкиваемся с особенностью метода search - метод search ищет только самое первое (самое левое) вхождение
## напишите код который находит все вхождения подстрок из i и выведите результат 
string = 'piigiiiiii'
match = re. ### ДОПИШИТЕ КОД
print(match.)

AttributeError: 'list' object has no attribute 'group'

In [None]:
#теперь попробуем найти не только свиней, но и мопсов (pug - мопс)
all_strings = ['pig', 'pog', 'pug', 'piug', 'pigpugpig', 'pig_pug']
for element in all_strings:
    match = re.search(### ДОПИШИТЕ КОД
    if match:
        print(match.group(), end = ', ')

pig, pug, pigpugpig, pig_pug, 

In [None]:
# посмеялись и хватит, давайте найдём строки где не больше 5и смешков
# с условием, что кто-то смеётся с дефисом, а кто-то без
all_strings = ['ха-ха', 'ха-хаха-ха-хаха-ха','хо-хоха-хахо-хохах-ах', 'хахоха']
for element in all_strings:
    match = re.search(### ДОПИШИТЕ КОД
    if match:
        print(match.group(), end = ', ')

ха-ха, ха-хаха-ха-ха, хо-хоха-хахо-, хахоха, 

### Попробуем найти все e-mail'ы в строке

In [None]:
# как бы мы делали раньше
import re
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search(r'\w+@\w+', string) # что-то, потом @, потом ещё что-то
if match:
    print(match.group())

b@google


В этом случае поиск не дает полного адреса электронной почты, потому что `\w` не соответствует дефису или точке в адресе. Исправим это, используя функции регулярных выражений ниже. Коды `\w`, `\s` и другие работают точно так же внутри квадратных скобок. Исключение - точка (.), которая внутри скобок означает просто буквальную точку. 

**Итак, собираем регулярное выражение:**

1) `[\w.-]` всё, что может находиться в адресе электронной почты

2) `[\w.-]+` добавим плюс, так как там может быть сколько угодно символов

3) `[\w.-]+@[\w.-]+` посередине знак @, готово!

In [None]:
# как мы будем делать, зная регулярные выражения
import re
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search(### ДОПИШИТЕ КОД
if match:
    print(match.group())

alice-b@google.com



### Группировка 

Функция "группировки" регулярного выражения позволяет вам выделять части совпадающего текста. Предположим, что для проблемы электронной почты мы хотим извлечь имя пользователя и хост отдельно. Для этого добавьте круглые скобки () вокруг имени пользователя и хоста в шаблоне. В этом случае круглые скобки не меняют то, чему будет соответствовать шаблон, вместо этого они создают логические «группы» внутри текста соответствия. При успешном поиске `match.group(1)` - это текст совпадения, соответствующий 1-й левой круглой скобке, а `match.group(2)` - текст, соответствующий 2-й левой скобке. Обычный `match.group()`, как обычно, по-прежнему представляет собой весь текст соответствия.

In [19]:
string = 'purple alice-b@google.com monkey dishwasher'
match = re.search('([\w.-]+)@([\w.-]+)', string)
if match:
    print(match.group())   ## 'alice-b@google.com' (полное совпадение)
    print(match.group(1))  ## 'alice-b' (юзернейм)
    print(match.group(2))  ## 'google.com' (домен электронной почты)

alice-b@google.com
alice-b
google.com


### Функции кроме search()

`re.split(pattern, string, maxsplit=0)`	Аналог `str.split()`, только разделение происходит по подстрокам, подходящим под шаблон pattern;



In [None]:
# по умолчанию метод split делит строку по пробелам
'itsy, bitsy, teenie, weenie'.split()

['itsy,', 'bitsy,', 'teenie,', 'weenie']

In [None]:
#но можно добавить выражение, по которому мы делим
'itsy, bitsy, teenie, weenie'.split(',')

['itsy', ' bitsy', ' teenie', ' weenie']

In [None]:
# тоже самов с  re
string = 'itsy, bitsy, teenie, weenie'
result = re.split(',', string) 
print(result)

['itsy', ' bitsy', ' teenie', ' weenie']


In [None]:
# можно указать максимальное количество разбиений
string = 'itsy, bitsy, teenie, weenie'
result = re.split(',', string, maxsplit = 2) 
print(result)

['itsy', ' bitsy', ' teenie, weenie']


In [None]:
# разобьем строку, состоящую из нескольких предложений, по точкам, но не более чем на 3 предложения.
string = 'He woke up. He cooked berakfast. He drank coffee. He left home. He entered subway.'
result = re.split(### ДОПИШИТЕ КОД
[x.strip() for x in result]

['He woke up',
 'He cooked berakfast',
 'He drank coffee. He left home. He entered subway.']

In [None]:
# тестируем функцию split, которая поделит строку на две части по дефису, окружённому знаками табуляции (пробелами)
string = 'В моём сердце дырка - мне нужна таблетка'
### ДОПИШИТЕ КОД

['В моём сердце дырка', 'мне нужна таблетка']


`re.findall(pattern, string)`	 ищет в строке `string` **все** непересекающиеся шаблоны `pattern`



In [None]:
# найдем всех котов
string = 'я люблю котиков, кошечек, котят и котов.'
result = re.findall(### ДОПИШИТЕ КОД
print(result)

['котиков', 'котят', 'котов']


In [None]:
## Теперь найдем все email
string = 'purple alice@google.com, blah monkey bob@abc.com blah dishwasher alice.bob@google.com, alice_bob@google.com,'

## re.findall() возвращает список со всеми вхождениями шаблона
emails = re.findall(### ДОПИШИТЕ КОД
for email in emails:
    print(email)

`re.finditer(pattern, string)`	Итератор по всем непересекающимся шаблонам `pattern` в строке `string` (выдаются match-объекты)



In [None]:
# Найти даты
# Обратим внимание, как записаны даты: день(1-2 числа) - месяц (строго 2 числа) - год (строго 4 числа)
# match.start() индекс в исходной строке, начиная с которого идёт найденная подстрока
string = 'Первый локдаун начался 27.03.2020, а последний - 1.11.2021'
for match in re.finditer(### ДОПИШИТЕ КОД
    print('Дата', match.group(), 'начинается с позиции', match.start()) 

Дата 27.03.2020 начинается с позиции 23
Дата 1.11.2021 начинается с позиции 49


`re.match(pattern, string)`	ищет входения шаблона в НАЧАЛЕ строки

In [None]:
# найдем котов
string = 'я люблю котиков, кошечек, котят и котов.'
result = re.match(### ДОПИШИТЕ КОД
print(result)

None


In [None]:
# найдем котов
string = 'кот сидел на коврике'
result = re.match(### ДОПИШИТЕ КОД
print(result.group(0))

кот


`re.sub(pattern, repl, string, count=0)`	заменяет в строке `string` все непересекающиеся шаблоны `pattern` на `repl`

In [None]:
# заменим А на Б
string = 'Мама мыла раму.'
result = re.sub(### ДОПИШИТЕ КОД
print(result)

Момо мыло рому.


In [None]:
# можно установить ограничение на количество замен, по умолчанию его нет
string = 'Мама мыла раму.'
result = re.sub(### ДОПИШИТЕ КОД
print(result)

Момо мыло раму.


In [24]:
# Пример посложнее
print(re.sub(r'Аль\-\w+|Талиб\w+', 
             'запрещенная в россии террористическая организация'.upper(), 
             'Недавно Аль-Каида совместо с Аль-Джихадом признала себя виновной в совершении тяжких преступлений, в отношении Талибов так же будут приняты ответные меры')) 

Недавно ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ совместо с ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ признала себя виновной в совершении тяжких преступлений, в отношении ЗАПРЕЩЕННАЯ В РОССИИ ТЕРРОРИСТИЧЕСКАЯ ОРГАНИЗАЦИЯ так же будут приняты ответные меры


`re.compile` компилирует регулярное выражение в отдельный объект

In [None]:
# построим список всех слов строки
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."
prog = re.compile(### ДОПИШИТЕ КОД
prog.findall(string)

In [None]:
# для выбранной строки постройте список слов, которые длиннее трех символов
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."
prog = re.compile(### ДОПИШИТЕ КОД
prog.findall(string)

['Слова', 'больше', 'ещё', 'больше', 'слов', 'Что-то', 'ещё']

In [None]:
# найти первое слово в строке
string = "Слова? Да, больше, ещё больше слов! Что-то ещё."
prog = re.compile(### ДОПИШИТЕ КОД
prog.match(string).group(0)

'Слова'



`re.IGNORECASE` позволяет не различать заглавные и маленькие буквы. Работает медленнее, но иногда удобно.

In [None]:
# последнии пример, игнорирование регистра в регулярных выражениях
string = 'ОООО ааааа оооо ММММ мМммМММм'
### ДОПИШИТЕ КОД

['ОООО', 'ааааа', 'оооо', 'ММММ', 'мМммМММм']


### Где потренироваться в регулярных выражениях?

* [https://pythex.org/](https://pythex.org/)

* [https://regex101.com/r/F8dY80/3](https://regex101.com/r/F8dY80/3)

### Cамостоятельные задачки для самых активных NLPшников


#### Текст для примера для задач 1-3

Сегодня в пресс-релизе МИД РФ и NASA ESA, а также ООН ЮНЕСКО, объявили о совместном пилотном проекте. Во встрече в Берлине приняли участие Анна Петрова и Михаил Иванов, а координатором выступил Виктор Сергеев. Компания ООО РОМАШКА и НИИ МЕХАНИКИ обязались подготовить отчёт до 05.03.2007, тогда как рабочую сессию перенесли на 7/11/07; резервная дата указана как 12-04-07. Кроме того, НАТО и ЦУМ поддержали информационную кампанию, ИП ПЕТРОВ выступит подрядчиком по логистике, а консультантом станет Екатерина Смирнова. Вчера я обсуждал детали с Иваном в кафе на набережной Волги и отправил письмо в адрес ESA и МИД РФ.



**Задача №1**

Собрать все аббревиатуры

Будем считать аббревиатурой слова только лишь из заглавных букв (как минимум из двух). Если несколько таких слов разделены пробелами, то они считаются одной аббревиатурой.

**Задача №2**

Найти дату в строке. В отличие от прошлого примера год может записыватьс двумя способами - 2007 или 07, то есть 4 или 2 символа, вывести месяц.

**Задача №3**

Найти все имена собственные в тексте. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

В данном случае, будем считать что имя собственное - слово, начинающеся с большой буквы. Случаи, когда предложение начинается с имени собственного, можно игнорировать.

#### Это список строк для задач 5, 6

list_of_strings = ["ПриветМир", 
                   "abcXYZ", 
                   "МарияАнтуанетта", 
                   "über", 
                   "abc-xyz", 
                   "abc_123", 
                   "хлеб", 
                   "арбузб", 
                   "арбузБ", 
                   "баб", 
                   "ббабб", 
                   "б", 
                   "бббаббаб", 
                   "ба", 
                   "аб",
                   "аба", 
                   "а", 
                   "Ваня Ваня пришёл вовремя", 
                   "что что это же очевидно бабушка", 
                   "мы просто говорим тут", 
                   "123 это строка и заканчивается словом финал", 
                   "+42 пример строки с числом в начале и словом на конце слово", 
                   "7 а тут в конце восклицание!", "В пещере цвет выцвел, и ворон каркнул громко.", 
                   "цветы не считаются, зато ворон тут есть.", "This is fine.", 
                   "The bag is empty.", 
                   "'Hello', she said softly.", 
                   "(Well) this is fine.", 
                   "It's nice.", 
                   "Re-enter the room."]

### --Задание 5--

Напишите регулярные выражения поиска.

1. множества всех строк, состоящих только из букв;
2. множества всех строк из строчных букв, оканчивающихся на букву б;
3. множества всех строк над алфавитом {а, б}, в которых каждой букве a предшествует и за каторой слебуем буква б (то есть каждая a стоит в контексте бaб).

### --Задание 6--
Напишите регулярные выражения для поиска

1. множества всех строк с двумя подряд идущими повторяющимися словами (например, «Ваня Ваня» и «что что», но не «что ты» и не «что ты наделал»);
2. множества всех строк, которые начинаются в начале строки с целого числа и оканчиваются в конце строки словом;
3. множества всех строк, в которых встречаются и слово «цвет», и слово «ворон» (но не, например, слова вроде «цветы», которые лишь содержат подстроку «цвет»);
4. напишите шаблон, который помещает первое слово английского предложения в группу и помещает его в конец предложения. Учтите пунктуацию. 

### Задание 7 

## вариант 1 (на примере английского языка)
Цель

Реализовать простейшего чат-бота в стиле ELIZA — диалог на основе шаблонных подстановок (регулярных выражений). Бот распознаёт некоторые речевые шаблоны в реплике пользователя и отвечает заранее заготовленными фразами, иногда повторяя части исходной реплики.

Допускается выбрать иной «домен» (например, «коуч по продуктивности», «техподдержка», «фитнес-тренер»), но важно, чтобы предметная область позволяла строить простые повторяющиеся шаблоны.

Минимальные требования к решению

Нормализация входа: приведите текст к единому регистру (проще — к ВЕРХНЕМУ) или используйте re.IGNORECASE.

Правила (pattern → response): храните набор пар «регулярное выражение → шаблон ответа».

Порядок применения: идите по списку правил сверху вниз и используйте первое совпадение (или случайно выбирайте из нескольких ответов для одного и того же паттерна).

Захватывающие группы: используйте скобки (...) и ссылки \1, \2, чтобы подставлять фрагменты из исходной реплики в ответ.

Фолбэк (по желанию, но полезно): если ни одно правило не сработало, верните нейтральный ответ («PLEASE, GO ON.») или «эхо-ответ» с отражением местоимений (I→YOU, my→YOUR и т. п.).

Пример набора правил (как в условии)
re.sub(r".* I AM (DEPRESSED|SAD) .*", r"I AM SORRY TO HEAR YOU ARE \1", input)
re.sub(r".* I AM (DEPRESSED|SAD) .*", r"WHY DO YOU THINK YOU ARE \1", input)
re.sub(r".* ALWAYS .*",                 r"CAN YOU THINK OF A SPECIFIC EXAMPLE", input)

    Что делает каждое правило

    .* YOU ARE (DEPRESSED|SAD) .*
    Ищет в строке фразу I AM и одно из слов DEPRESSED или SAD.

    .* — «любой текст» до/после (жадное соответствие).

    (DEPRESSED|SAD) — захватывающая группа: попадёт либо DEPRESSED, либо SAD.

    В ответах \1 вставит совпавшее слово (DEPRESSED/SAD).

    .* ALWAYS .*
    Срабатывает, если в тексте встречается слово/подстрока ALWAYS 

    Примечание о регистре: чтобы шаблоны сработали, вход обычно переводят в верхний регистр (input.upper()), либо включают флаг re.IGNORECASE.


Ниже —  примеры коротких диалогов для демонстрации ELIZA с шаблонами на базе регулярок. Реплики ELIZA — в ВЕРХНЕМ РЕГИСТРЕ.

1. (ALWAYS)
User: They always complain about me.
ELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE

2. (ALWAYS)
User: You always interrupt me during meetings.
ELIZA: CAN YOU THINK OF A SPECIFIC EXAMPLE

3. (YOU ARE (DEPRESSED|SAD) — через отражение “I’m → YOU ARE”)
User: I’m depressed lately.
ELIZA: I AM SORRY TO HEAR YOU ARE DEPRESSED

4. (YOU ARE (DEPRESSED|SAD) — альтернативный ответ)
User: I’m sad most evenings.
ELIZA: WHY DO YOU THINK YOU ARE SAD

5. (I NEED …)
User: I need more time to finish this.
ELIZA: WHY DO YOU NEED MORE TIME TO FINISH THIS

6. (I WANT …)
User: I want a new job.
ELIZA: WHY DO YOU WANT A NEW JOB

7. (BECAUSE …)
User: I left early because I was tired.
ELIZA: IS THAT THE REAL REASON

8. (FAMILY/RELATION — MOTHER)
User: My mother worries about my choices.
ELIZA: TELL ME MORE ABOUT YOUR MOTHER

9. (RELATION — BOYFRIEND)
User: My boyfriend made me come here.
ELIZA: YOUR BOYFRIEND MADE YOU COME HERE

10. (Фолбэк с отражением местоимений)
User: My manager pushed me too hard.
ELIZA: YOUR MANAGER PUSHED YOU TOO HARD

11. (Фолбэк с отражением местоимений)
User: My cat annoys me sometimes.
ELIZA: YOUR CAT ANNOYS YOU SOMETIMES

12. (Фолбэк — нейтральная реакция, ни один шаблон не сработал)
User: The weather is fine today.
ELIZA: PLEASE, GO ON.





### Задание 7 

## вариант 2 (на примере русского языка)

Цель

Сделать простого чат-бота в стиле ELIZA на русском. Бот распознаёт шаблоны в реплике пользователя (через регулярные выражения) и отвечает заготовленными фразами, иногда повторяя части исходной реплики.

Что требуется

Нормализовать ввод: либо переводите реплику в ВЕРХНИЙ РЕГИСТР (text.upper()), либо используйте re.IGNORECASE.

Сопоставлять правила сверху вниз: каждое правило — это пара (паттерн, шаблон ответа); срабатывает первое подходящее.

Использовать группы: скобки (...) и ссылки \1, \2 для подстановки фрагментов.

Фолбэк: если нет совпадений — нейтральный ответ («ПРОДОЛЖАЙ, ПОЖАЛУЙСТА.») или «эхо» с отражением местоимений (я→ты, мне→тебе, мой→твой и т. п.).

Базовый набор правил (пример)

Ниже — минимальные русскоязычные аналоги популярных правил ELIZA. 

# 1) Утверждения про грусть/упадок (после отражения «я»→«ты»)
r".*\bТЫ (ГРУСТИШЬ|УНЫВАЕШЬ|ПЕЧАЛИШЬСЯ|РАССТРОЕН(?:А)?)\b.*"
→ "МНЕ ЖАЛЬ СЛЫШАТЬ, ЧТО ТЫ \1."
или
→ "ПОЧЕМУ ТЫ ДУМАЕШЬ, ЧТО ТЫ \1?"

# 2) Обобщения «всегда»
r".*\bВСЕГДА\b.*"
→ "МОЖЕШЬ ПРИВЕСТИ КОНКРЕТНЫЙ ПРИМЕР?"

# 3) Потребности и желания
r".*\bМНЕ НУЖНО\b\s+(.+)"
→ "ПОЧЕМУ ТЕБЕ НУЖНО \1?"

r".*\bЯ ХОЧУ\b\s+(.+)"
→ "ПОЧЕМУ ТЫ ХОЧЕШЬ \1?"

# 4) Причины
r".*\bПОТОМУ ЧТО\b\s+(.+)"
→ "ЭТО ИСТИННАЯ ПРИЧИНА?"

# 5) Близкие/отношения (ответ без склонения, чтобы избежать грамматических ловушек)
r".*\b(МАМА|ПАПА|ПАРЕНЬ|ДЕВУШКА|МУЖ|ЖЕНА|ДРУГ|ПОДРУГА)\b.*"
→ "РАССКАЖИ ПОДРОБНЕЕ О СВОИХ ОТНОШЕНИЯХ."

Отражение местоимений (минимум)

Перед проверкой правил (или в фолбэке) полезно применить простые замены:

\bя\b → ТЫ, \bменя\b → ТЕБЯ, \bмне\b → ТЕБЕ, \bмой\b → ТВОЙ, \bмоя\b → ТВОЯ, \bмои\b → ТВОИ

\bмы\b → ВЫ, \bнаш\b → ВАШ, \bнаши\b → ВАШИ

(опционально в обратную сторону для «ты→я», если хотите отвечать от первого лица)

Примеры диалогов (русский)

1. (ВСЕГДА)
User: Они всегда критикуют меня.
ELIZA: МОЖЕШЬ ПРИВЕСТИ КОНКРЕТНЫЙ ПРИМЕР?

2. (ВСЕГДА)
User: Ты всегда перебиваешь меня на встречах.
ELIZA: МОЖЕШЬ ПРИВЕСТИ КОНКРЕТНЫЙ ПРИМЕР?

3. (ГРУСТЬ — через отражение «я»→«ты»)
User: Я грущу последние дни.
ELIZA: МНЕ ЖАЛЬ СЛЫШАТЬ, ЧТО ТЫ ГРУСТИШЬ.

4. (ГРУСТЬ — альтернативный ответ)
User: Я часто бываю расстроена.
ELIZA: ПОЧЕМУ ТЫ ДУМАЕШЬ, ЧТО ТЫ РАССТРОЕНА?

5. (МНЕ НУЖНО …)
User: Мне нужно больше времени на проект.
ELIZA: ПОЧЕМУ ТЕБЕ НУЖНО БОЛЬШЕ ВРЕМЕНИ НА ПРОЕКТ?

6. (Я ХОЧУ …)
User: Я хочу сменить работу.
ELIZA: ПОЧЕМУ ТЫ ХОЧЕШЬ СМЕНИТЬ РАБОТУ?

7. (ПОТОМУ ЧТО …)
User: Я ушёл раньше, потому что устал.
ELIZA: ЭТО ИСТИННАЯ ПРИЧИНА?

8. (БЛИЗКИЕ)
User: Моя мама очень волнуется из-за меня.
ELIZA: РАССКАЖИ ПОДРОБНЕЕ О СВОИХ ОТНОШЕНИЯХ.

9. (Фолбэк с отражением местоимений)
User: Мой начальник давит на меня.
ELIZA: ТВОЙ НАЧАЛЬНИК ДАВИТ НА ТЕБЯ.

10. (Фолбэк — нейтрально)
User: Погода сегодня отличная.
ELIZA: ПРОДОЛЖАЙ, ПОЖАЛУЙСТА.