## Регулярные выражения в Python 


Работа с хитрыми и не очень "паттернами" в строках: поиск, замена, извлечение...
Мы уже имели с ними дело на примере **grep**. Наверняка поддержка регулярных выражений есть почти во всех "промышленных" языках.

*Устный рассказ у доски о языке регулярных выражений.*

copy+paste отсюда
```
Оператор	Описание

.			Один любой символ, кроме новой строки \n.
?			0 или 1 вхождение шаблона слева
+			1 и более вхождений шаблона слева
*			0 и более вхождений шаблона слева
\w			Любая цифра или буква (\W — все, кроме буквы или цифры)
\d			Любая цифра [0-9] (\D — все, кроме цифры)
\s			Любой пробельный символ (\S — любой непробельнй символ)
\b			Граница слова
[..]		Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
\			Экранирование специальных символов (\. означает точку или \+ — знак «плюс»)
^ и $		Начало и конец строки соответственно
{n,m}		От n до m вхождений ({,m} — от 0 до m)
a|b			Соответствует a или b
()			Группирует выражение и возвращает найденный текст
\t, \n, \r	Символ табуляции, новой строки и возврата каретки соответственно
```

## Часто используемые методы

In [8]:
# sub -- замена
import re

text = "далеко-далеко. на лугу пасуться ко...?"

print(re.sub("ться", "тся", text))

# print(re.sub(".{3}", "ровы.", text))
# print(re.sub("\.*", "зы", text))
# print(re.sub("\.+", "зы", text))
# print(re.sub("\.\.*", "зы", text))
# print(re.sub("\.\.+", "зы", text))
# print(re.sub("\.{3}", "зы", text))

далеко-далеко. на лугу пасутся ко...?


In [None]:
match()			Determine if the RE matches at the beginning of the string.
search()		Scan through a string, looking for any location where this RE matches.
findall()		Find all substrings where the RE matches, and returns them as a list.
finditer()		Find all substrings where the RE matches, and returns them as an iterator.

In [21]:
# match -- ищет в начале строки, выдаёт совпадение
# group -- обеспечивает доступ

matched = re.match("\w*", "я гений игорь северянин")

print(matched)
print(matched.start())
print(matched.end())
print(matched.span())
print(matched.group())

matched = re.match("\w*'\w*", "i don't wan't a sto'r'my af'fair")

# print(matched)
# print(matched.start())
# print(matched.end())
# print(matched.span())
# print(matched.group())

<_sre.SRE_Match object; span=(0, 1), match='я'>
0
1
(0, 1)
я


In [38]:
# search, findall, finditer

match_object = re.search("\d{1,2}", "2,13,40,25,100,5000")

if match_object:
    print(match_object)

# print(re.findall("\d{1,2}", "2,13,40,25,100,5000"))
# print(re.finditer("\d{1,2}", "2,13,40,25,100,5000"))
# print([s for s in re.finditer("\d{1,2}", "2,13,40,25,100,5000")])
# print([(s.start(), s.end()) for s in re.finditer("\d{1,2}", "2,13,40,25,100,5000")])

<_sre.SRE_Match object; span=(0, 1), match='2'>


In [39]:
# compile -- заранее построить автомат для разбора регулярных выражений, бывает нужно для

text = "It's a kind of magic, a kind of magic, a kind of magiiiiiiic"

matcher = re.compile("(\w*('|i)\w*)")
# print(matcher.match(text).group())
# print(matcher.search(text).group())
# print(matcher.findall(text))
# print([s for s in matcher.finditer(text)])


#### Типичные задачи для разработчика
0. Работа с логами и любыми другими текстовыми файлами: фильтрация, выборка, поиск
1. Валидация email (правильный путь -- нагуглить)
2. Валидация номеров телефонов
3. Простой фильтр мата, иных специфичных слов и выражений
4. **Приведение данных к нужному виду**
5. ...

#### Задача
В обучающей выборке Titanic Challenge взять колонку с именами пассажиров и определить, насколько хорошо определяется пол, если использовать **не более одного регулярного выражения** (Mr, Ms, ...).

#### Задача
1. С помощью регулярного выражения выбрать все пользовательские реплики из логов -- см. файл с прошлого занятия.
2. Представить каждую реплику как множество слов, предварительно нормализовав.
3. Глазами посмотрев статистику, попытаться разбить на классы по "типам запросов" с помощью регулярных выражений, стараясь покрыть как можно больше запросов (если они не будут похожи на "естественные" ввиду специфики чат-бота, попытаться придумать самостоятельно).
4. (*) Написать консольного чат-бота, который отвечает на самые простые запросы вашими репликами. Не забудьте добавить "элемент случайности" (недетерминированное поведение бота в одинаковых ситуациях). Можно не поддерживать "контекст".


## sed*

На практике -- работая, например, со скверно форматированными или просто не особенно структурированными данными, приходится преобразовывать подстроки по сравнительно сложным паттернам. При этом не всегда файлы достаточно малы для работы с ними в "обычных" редакторах.

В том числе для таких случаев подойдёт "потоковый" текстовый редактор **sed**. 
https://ru.wikipedia.org/wiki/Sed

Пользователь пишет скрипт на специальном языке sed, в котором описывает, что именно нужно проделать с файлом. А затем sed проходит по всему файлу и применяет скрипт к каждой строке. Например, можно записать "для сотой строки выполни ...". Или "в каждой строке замени дату, заданную регулярным выражением, на пробел". И так далее. Поэтому sed называют неинтерактивным редактором.

Быть "sed-джедаем" почётно (или нет), но мы ограничимся простым примером.

    sed -e 's/doge/котэ/g' inputFileName > outputFileName

s = substitute (?) -- замена
g = globally -- глобально, то есть все вхождения паттерна
"doge" -- пример паттерна (любое регулярное выражение)
"котэ" -- пример замены

    sed -e 's/(\d\d\d\d)-\d\d-\d\d/\1/g'

А здесь от каждой встретившейся даты оставляем в тексте только "год" -- группу в скобках.

##### Задание

Используя только sed, вытащить из логов только дату, текст пользователя, подобранную рифму.
