## логика регулярных выржений и зачем они нужны

регулярное выражение — это последовательность символов, используемая для поиска и(или) замены некоторого паттерна в строке (тексте или файле) 

регулярные выражения хороши, когда нам нужно вытащить из текста *повторяющийся паттерн*: номер телефона, конкретную фразу, адреса и тд.

<img src="https://imgs.xkcd.com/comics/regular_expressions.png">

регулярные выражения можно использовать не только в питоне! Можно везде, где поддерживается их синтаксис<br>
- терминал (командная строка, смотрите команду [grep для Unix*](https://www.cyberciti.biz/faq/howto-use-grep-command-in-linux-unix/) и [для Windows](https://www.shellhacks.com/windows-grep-equivalent-cmd-powershell/))
- Excel/[Google Sheets]((https://www.distilled.net/how-to-use-regex-in-google-sheets/))
- текстовые редакторы ([Sublime Text](http://webcache.googleusercontent.com/search?q=cache:http://docs.sublimetext.info/en/latest/search_and_replace/search_and_replace_overview.html), Notepad++ и тд)

**онлайн-способы проверить регулярки:**

- [1](https://regexr.com/)

- [2](https://www.debuggex.com/) (не забудьте выбрать Python в выпадающем окне!)

- [3](https://regex101.com/r/F8dY80/3)

подсказки по синтаксису регулярных выражений:



<table width="100%"><tbody><tr><th style="text-align: center;" width="90"><strong>Оператор</strong></th><th style="text-align: center;" width="680"><strong>Описание</strong></th></tr><tr><td width="90"><tt>.</tt></td><td width="680">Один любой символ, кроме новой строки <tt>\n</tt>.</td></tr><tr><td width="90"><tt>?</tt></td><td width="680">0 или 1 вхождение шаблона слева</td></tr><tr><td width="90"><tt>+</tt></td><td width="680">1 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>*</tt></td><td width="680">0 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>\w</tt></td><td width="680">Любая цифра или буква (<tt>\W</tt> —&nbsp;все, кроме буквы или цифры)</td></tr><tr><td width="90"><tt>\d</tt></td><td width="680">Любая цифра [0-9] (<tt>\D</tt> —&nbsp;все, кроме цифры)</td></tr><tr><td width="90"><tt>\s</tt></td><td width="680">Любой пробельный символ (<tt>\S</tt> —&nbsp;любой непробельный символ)</td></tr><tr><td width="90"><tt>\b</tt></td><td width="680">Граница слова</td></tr><tr><td width="90"><tt>[..]</tt></td><td width="680">Один из символов в скобках (<tt>[^..]</tt> —&nbsp;любой символ, кроме тех, что в скобках)</td></tr><tr><td width="90"><tt>\</tt></td><td width="680">Экранирование специальных символов (<tt>\.</tt> означает точку или <tt>\+</tt> —&nbsp;знак «плюс»)</td></tr><tr><td width="90"><tt>^</tt> и <tt>$</tt></td><td width="680">Начало и конец строки соответственно</td></tr><tr><td width="90"><tt>{n,m}</tt></td><td width="680">От <tt>n</tt> до <tt>m</tt> вхождений (<tt>{,m}</tt> —&nbsp;от 0 до <tt>m</tt>)</td></tr><tr><td width="90"><tt>a|b</tt></td><td width="680">Соответствует <tt>a</tt> или <tt>b</tt></td></tr><tr><td width="90"><tt>()</tt></td><td width="680">Группирует выражение и возвращает найденный текст</td></tr><tr><td width="90"><tt>\t</tt>, <tt>\n</tt>, <tt>\r</tt></td><td width="680">Символ табуляции, новой строки и возврата каретки соответственно</td></tr></tbody></table>


[здесь](https://www.rexegg.com/regex-quickstart.html) развернутая таблица синтаксиса

## Регулярные выражения в питоне

чтобы начать работать с регулярными выражениями в питоне, нам нужно импортировать модуль ``re``

    import re

* здесь [ссылка](https://docs.python.org/3/library/re.html) на его документацию и [ссылка на тьюториал](https://docs.python.org/3/howto/regex.html#regex-howto) 

а так выглядят основные функции модуля re 

<div class="table"><table>
<thead>
<tr>
<th>Функция</th>
<th>Что делает</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>re.match(pattern, string)</code></td>
<td>Найти по заданному шаблону <code>pattern</code> первое совпадение в начале строки<code>string</code></td>
</tr>
<tr>
<td><code>re.search(pattern, string)</code></td>
<td>Найти в строке <code>string</code> первую строчку, подходящую под шаблон <code>pattern</code> <br>ищет по всей строке, но возвращает только первое найденное совпадение</br></td>
</tr>
<tr>
<td><code>re.fullmatch(pattern, string)</code></td>
<td>Проверить, подходит ли строка <code>string</code> под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.split(pattern, string, maxsplit=0)</code></td>
<td>Аналог <code>str.split()</code>, только разделение происходит по подстрокам, подходящим под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.findall(pattern, string)</code></td>
<td>Найти в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code></td>
</tr>
<tr>
<td><code>re.sub(pattern, replace, string)</code></td>
<td>Заменить в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code> на <code>replace</code></td>
</tr>
</tbody>
</table></div>


Давайте попробуем!

In [None]:
import re

**re.match(pattern, string)**

метод ищет подстроку по заданному шаблону в начале строки 

In [None]:
result = re.match(r'Hello', 'Hello my dear friend Amy')
# («r» перед строкой шаблона показывает, что это «сырая» строка в Python)

print (result)
# попробуйте найти hello вместо Hello

<_sre.SRE_Match object; span=(0, 5), match='Hello'>


Строка найдена, но не показывается "понятно". По умолчанию, print покажет не только саму подстроку, но и мета-данные.

Чтобы вывести содержимое, используем метод ```.group()``` Он показывает вхождения искомого паттерна

In [None]:
print (result.group())

Hello


**re.search(pattern, string)**

метод похож на match(), но ищет паттерн по всей длине строки

In [None]:
result = re.search(r'my', 'Hello my dear friend Amy')
print (result.group())
print(type(result))

my
<class '_sre.SRE_Match'>


**re.fullmatch(pattern, string)**

проверяет, является ли паттерн полным совпадением со строкой

In [None]:
result = re.fullmatch(r'Hello my dear friend Amy', 'Hello my dear friend Amy')
print (result)
print ("\n",result.group())


<re.Match object; span=(0, 24), match='Hello my dear friend Amy'>

 Hello my dear friend Amy


**re.split(pattern, string, maxsplit=0)**

метод разделяет строку по заданному шаблону

In [None]:
result = re.split(r'e','Hello my dear friend Amy')
print (result)

['H', 'llo my d', 'ar fri', 'nd Amy']


* maxsplit= - опциональный аргумент. 
* Если его указать, то разделение будет произведено не более указанного количества раз

In [None]:
result = re.split(r'e', 'Hello my dear friend Amy',maxsplit=3)
print (result)

['H', 'llo my d', 'ar fri', 'nd Amy']


**re.findall(pattern, string)**

возвращает список всех найденных совпадений

In [None]:
result = re.findall(r'friend\s\w+', 'Hello my dear friend Amy')
print (result) # обратите внимание, здесь мы не используем .group()

# попробуйте с буквой e  или r

['friend Amy']


**re.sub(pattern, repl, string)**

метод ищет шаблон в строке и заменяет его на указанную подстроку.

Если шаблон не найден, строка остается неизменной.

In [None]:
text = 'Hello my dear friend Amy'
result = re.sub(r'Amy','Jack', text ) 
# третьим аргументом может быть не только строка сама по себе, но и переменная, в которую сохранена строка

print (result)

Hello my dear friend Jack


## classwork

1. (```re.findall```) Напишите регулярное выражение, которое вытаскивало бы все адреса из документа **addresses.txt**


2. (```re.findall```+ работа с файлами) Детектим прямую речь в тексте. В файле **d_speech.txt** лежит текст, в котором есть строки с прямой речью. Напишите регулярное выражение, которое вытащит все строки с прямой речью.

3. (```re.sub```) Из текта в файле "морж-корж.txt" возьмите текст и замените все вхождения слова "морж" на слово "корж"

In [None]:
#задание 1

addresses = """
Nordstrom Rack and HauteLook
Nordstrom Rack is the off-price retail division of Nordstrom Inc., which was founded in 1901 in Seattle, Washington, by John W. Nordstrom.

Nordstrom encourages contact from its customers and has supplied contact details to us.

700 S. Flower Street
Suite 1700
Los Angeles, CA 90017
https://www.nordstromrack.com/

Phone Contacts
Main: (206) 628-2111
Customer Service: (888)966-6283
International: (319) 846-4140

Nordstrom Customer Service: (888)282-6060

 

Email Contacts
Contact@nordstrom.com

Social Media Contacts
Facebook
Twitter

Executive Contacts
Primary Contact
Andrew Breen
Director Customer Care
700 S. Flower Street
Suite 1700
Los Angeles, CA 90017
Andrew.Breen@HauteLook.com

Secondary Contact
James F. Nordstrom
Executive Vice President and President of Nordstrom Stores
1600 Seventh Avenue
Suite 2600
Seattle, WA 98101
Jamie.nordstrom@nordstrom.com

Geevy Thomas
President of Nordstrom Rack
1600 Seventh Avenue
Suite 2600
Seattle, WA 98101
Geevy.Thomas@nordstrom.com

Chief Executive
See Notes Below
700 S. Flower Street
Suite 1700
Los Angeles, CA 90017

Erik B. Nordstrom
Co-President
erik.nordstrom@nordstrom.com

Peter E. Nordstrom
Co-President
Pete.Nordstrom@nordstrom.com

"""

result1 = re.findall(r'\d+ .+\n.+\n.+[A-Z][A-Z] \d+', addresses)
print(result1)

['700 S. Flower Street\nSuite 1700\nLos Angeles, CA 90017', '700 S. Flower Street\nSuite 1700\nLos Angeles, CA 90017', '1600 Seventh Avenue\nSuite 2600\nSeattle, WA 98101', '1600 Seventh Avenue\nSuite 2600\nSeattle, WA 98101', '700 S. Flower Street\nSuite 1700\nLos Angeles, CA 90017']


In [None]:
#задание 2

txt = """Клоун из цирка братьев Гинц, Генри Пуркуа, зашёл в московский трактир Тестова позавтракать. 
— Дайте мне консоме! — приказал он половому.
— Прикажете с пашотом или без пашота?
— Нет, с пашотом слишком сытно... Две-три гренки, пожалуй, дайте...
В ожидании, пока подадут консоме, Пуркуа занялся наблюдением. Первое, что бросилось ему в глава, был какой-то полный благообразный господин, сидевший за соседним столом и приготовлявшийся есть блины.
«Как, однако, много подают в русских ресторанах! — подумал француз, глядя, как сосед поливает свои блины горячим маслом.
— Пять блинов! Разве один человек может съесть так много теста?»
Сосед между тем помазал блины икрой, разрезал все их на половинки и проглотил скорее, чем в пять минут...
— Челаэк! — обернулся он к половому.— Подай ещё порцию! Да что у вас за порции такие? Подай сразу штук десять или пятнадцать! Дай балыка... семги, что ли?
«Странно... — подумал Пуркуа, рассматривая соседа. — Съел пять кусков теста и ещё просит! Впрочем, такие феномены не составляют редкости... У меня у самого в Бретани был дядя Франсуа, который на пари съедал две тарелки супу и пять бараньих котлет... Говорят, что есть также болезни, когда много едят...»
Половой поставил перед соседом гору блинов и две тарелки с балыком и семгой. Благообразный господин выпил рюмку водки, закусил семгой и принялся за блины. 
К великому удивлению Пуркуа, ел он их спеша, едва разжёвывая, как голодный...
«Очевидно, болен... — подумал француз.— И неужели он, чудак, воображает, что съест всю эту гору? Не съест и трёх кусков, как желудок его будет уже полон, а ведь придётся платить за всю гору!»
— Дай ещё икры! — крикнул сосед, утирая салфеткой масляные губы.— Не забудь зелёного луку!

"""


result2 = re.findall(r'(— .+? —)|(— .+?\n)|(«.+? —)|( — .+?»)', txt)
print(result2)                                           

[('— Дайте мне консоме! —', '', '', ''), ('', '— Прикажете с пашотом или без пашота?\n', '', ''), ('', '— Нет, с пашотом слишком сытно... Две-три гренки, пожалуй, дайте...\n', '', ''), ('', '', '«Как, однако, много подают в русских ресторанах! —', ''), ('', '— Пять блинов! Разве один человек может съесть так много теста?»\n', '', ''), ('— Челаэк! —', '', '', ''), ('', '— Подай ещё порцию! Да что у вас за порции такие? Подай сразу штук десять или пятнадцать! Дай балыка... семги, что ли?\n', '', ''), ('', '', '«Странно... —', ''), ('', '', '', ' — Съел пять кусков теста и ещё просит! Впрочем, такие феномены не составляют редкости... У меня у самого в Бретани был дядя Франсуа, который на пари съедал две тарелки супу и пять бараньих котлет... Говорят, что есть также болезни, когда много едят...»'), ('', '', '«Очевидно, болен... —', ''), ('', '— И неужели он, чудак, воображает, что съест всю эту гору? Не съест и трёх кусков, как желудок его будет уже полон, а ведь придётся платить за всю го

In [None]:
#задание 3

morj = """
Морж[1] (кильд. mоršа, норв. morššâ, лат. Odobenus rosmarus) — морское млекопитающее, единственный современный вид семейства моржовых клады ластоногих отряда хищных.

Взрослый морж легко узнаваем по своим видным бивням. Морж — один из крупнейших представителей ластоногих, по размерам тела среди ластоногих уступает лишь морским слонам[2]. Ареалы этих видов не пересекаются, то есть морж является крупнейшим из ластоногих в своей среде обитания.

Зимнее плавание в России называется «моржеванием».

В 2008 году, по инициативе Всемирного фонда дикой природы (WWF), утверждён День моржа, который отмечается ежегодно 24 ноября.

Морж — крупный морской зверь с очень толстой кожей. Верхние клыки чрезвычайно развиты, удлинённы и направлены вниз. Очень широкая морда усажена многочисленными толстыми, жёсткими, сплющенными щетинами-усами (вибриссами), их у моржа на верхней губе может быть от 400 до 700, расположены они в 13—18 рядов[4]. Наружных ушей нет, глаза маленькие.

Кожа покрыта короткими прилегающими жёлто-бурыми волосами, но с возрастом их становится меньше, и у старых моржей кожа почти совершенно голая. Конечности более приспособлены для движения на суше, чем у настоящих тюленей, и моржи могут ходить, а не ползать; подошвы мозолистые. Хвост зачаточный.

Кожа моржей очень морщинистая и толстая, до 10 см на шее и плечах самцов. Слой жира — до 15 см. Молодые моржи имеют тёмно-коричневый цвет кожи, а по мере взросления светлеют и бледнеют. Старые самцы становятся почти розовыми. Так как кровеносные сосуды кожи сужаются в холодной воде, моржи могут стать почти белого цвета во время купания. В качестве вторичных половых признаков для самцов (в естественных условиях) характерны наросты на коже шеи, груди и плеч.

Наиболее характерной особенностью моржа являются его длинные бивни. Это удлинённые клыки, которые присутствуют у обоих полов и могут достигать в длину 1 м и весить до 5,4 кг. Бивни немного длиннее и толще у самцов, которые используют их для схваток. Самцы с крупнейшими бивнями обычно доминируют в социальной группе. Бивни также используются для формирования и поддержания отверстий во льду и помогают моржам вылезать из воды на лёд. Возможно, бивни также используются, чтобы искать еду на дне.

Выделяют два или три подвида моржа[5]:

Тихоокеанский морж (Odobenus rosmarus divergens Illiger, 1811),
Атлантический морж (Odobenus rosmarus rosmarus Linnaeus, 1758).
Часто из тихоокеанского подвида выделяют третий подвид — лаптевского моржа (Odobenus rosmarus laptevi Chapskii, 1940), но его самостоятельность многими подвергается сомнению. В Красную книгу России лаптевская популяция включена на правах отдельного подвида.

Согласно данным МСОП[6], по результатам недавних исследований митохондриальной ДНК и изучения морфометрических данных, следует отказаться от рассмотрения лаптевского моржа как самостоятельного подвида, признав его крайней западной популяцией тихоокеанского моржа.

По последней оценке, основанной на результатах российско-американского учёта численности, проведённого в 1990 году и повторенного в 2006 году, современная численность популяции тихоокеанского моржа составляет от 129[7] до 200 тыс. особей[8][9].

Большая часть тихоокеанских моржей проводит лето севернее Берингова пролива, в Чукотском море вдоль северного побережья восточной Сибири, возле острова Врангеля, в море Бофорта вдоль северного побережья Аляски, а также встречается в водах между указанными местами. Небольшое число самцов встречается в летний период в Анадырском заливе, на южном побережье Чукотского полуострова, а также в Бристольском заливе. Весной и осенью они концентрируются от западного побережья Аляски до Анадырского залива. Они зимуют в южных частях Берингова моря, вдоль восточного побережья Сибири на юг к северной части полуострова Камчатка, а также вдоль южного побережья Аляски[2]. Фоссилизованные останки моржа возрастом 28 тыс. лет были найдены недалеко от залива Сан-Франциско, что показывает распространение моржа вплоть до берегов северной Калифорнии во времена последнего ледникового периода[10].

Атлантический морж был почти истреблён в результате бесконтрольного коммерческого промысла, и численность популяции его значительно ниже. Точно оценить численность в настоящее время нелегко, но, вероятно, она не превышает 20 тыс. особей[11][12]. Эта популяция распространена от Арктической Канады, Гренландии, Шпицбергена, а также в западном регионе Российской Арктики. На основании огромного географического распространения и данных по перемещениям, предполагается наличие восьми субпопуляций атлантического моржа — пять на западе и три на востоке от Гренландии[13]. Атлантический морж раньше занимал пределы, протянувшиеся на юг до мыса Код, и в большом числе встречался в заливе Святого Лаврентия. В апреле 2006 северо-западная популяция атлантического моржа была внесена в список Канадского акта по угрожаемым видам (англ. Canadian Species at Risk Act) (Квебек, Нью-Брансуик, Новая Шотландия, Ньюфаундленд и Лабрадор) как почти исчезнувшая в Канаде[14]. В ноябре 2018 года атлантические моржи были замечены в Белом море, где они не появлялись несколько столетий[15].

Изолированная лаптевская популяция моржа расположена в течение всего года в центральном и западном регионах Моря Лаптевых, в самом восточном регионе Карского моря, а также в самой западной части Восточно-Сибирского моря. Современная численность оценивается в 5—10 тыс. особей[16].

"""

result3 = re.sub(r'Морж','Корж', morj)
result3 = re.sub(r'морж', 'корж', result3)

print(result3)



Корж[1] (кильд. mоršа, норв. morššâ, лат. Odobenus rosmarus) — морское млекопитающее, единственный современный вид семейства коржовых клады ластоногих отряда хищных.

Взрослый корж легко узнаваем по своим видным бивням. Корж — один из крупнейших представителей ластоногих, по размерам тела среди ластоногих уступает лишь морским слонам[2]. Ареалы этих видов не пересекаются, то есть корж является крупнейшим из ластоногих в своей среде обитания.

Зимнее плавание в России называется «коржеванием».

В 2008 году, по инициативе Всемирного фонда дикой природы (WWF), утверждён День коржа, который отмечается ежегодно 24 ноября.

Корж — крупный морской зверь с очень толстой кожей. Верхние клыки чрезвычайно развиты, удлинённы и направлены вниз. Очень широкая морда усажена многочисленными толстыми, жёсткими, сплющенными щетинами-усами (вибриссами), их у коржа на верхней губе может быть от 400 до 700, расположены они в 13—18 рядов[4]. Наружных ушей нет, глаза маленькие.

Кожа покрыта короткими приле