<a href="https://colab.research.google.com/github/nstsj/python_for_CL/blob/master/13Nov2019.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## логика регулярных выржений и зачем они нужны

регулярное выражение — это последовательность символов, используемая для поиска и(или) замены некоторого паттерна в строке (тексте или файле) 

регулярные выражения хороши, когда нам нужно вытащить из текста *повторяющийся паттерн*: номер телефона, конкретную фразу, адреса и тд.

<img src="https://imgs.xkcd.com/comics/regular_expressions.png">

регулярные выражения можно использовать не только в питоне! Можно везде, где поддерживается их синтаксис (например, терминал, Excel/Google Sheets, Sublime Text и тд)

* Для работы в терминале потребуется команда ```grep``` (= General Regular Expressions) [ссылка1, Eng](https://www.geeksforgeeks.org/grep-command-in-unixlinux/)  и [ссылка2, Rus](http://blog.sedicomm.com/2018/07/22/12-prakticheskih-primerov-komandy-grep-v-linux/)


* Здесь можно посмотреть, как использовать регулярные выражения в Google Sheets ([1](https://www.distilled.net/how-to-use-regex-in-google-sheets/), [2](https://support.google.com/docs/answer/62754?hl=en) ) и в Sublime Text ([3](http://webcache.googleusercontent.com/search?q=cache:http://docs.sublimetext.info/en/latest/search_and_replace/search_and_replace_overview.html))

**онлайн-способы проверить регулярки:**

[1](https://regexr.com/)

[2](https://www.debuggex.com/) (не забудьте выбрать Python в выпадающем окне!)

[3](https://regex101.com/r/F8dY80/3)

подсказки по синтаксису регулярных выражений:



<table width="100%"><tbody><tr><th style="text-align: center;" width="90"><strong>Оператор</strong></th><th style="text-align: center;" width="680"><strong>Описание</strong></th></tr><tr><td width="90"><tt>.</tt></td><td width="680">Один любой символ, кроме новой строки <tt>\n</tt>.</td></tr><tr><td width="90"><tt>?</tt></td><td width="680">0 или 1 вхождение шаблона слева</td></tr><tr><td width="90"><tt>+</tt></td><td width="680">1 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>*</tt></td><td width="680">0 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>\w</tt></td><td width="680">Любая цифра или буква (<tt>\W</tt> —&nbsp;все, кроме буквы или цифры)</td></tr><tr><td width="90"><tt>\d</tt></td><td width="680">Любая цифра [0-9] (<tt>\D</tt> —&nbsp;все, кроме цифры)</td></tr><tr><td width="90"><tt>\s</tt></td><td width="680">Любой пробельный символ (<tt>\S</tt> —&nbsp;любой непробельный символ)</td></tr><tr><td width="90"><tt>\b</tt></td><td width="680">Граница слова</td></tr><tr><td width="90"><tt>[..]</tt></td><td width="680">Один из символов в скобках (<tt>[^..]</tt> —&nbsp;любой символ, кроме тех, что в скобках)</td></tr><tr><td width="90"><tt>\</tt></td><td width="680">Экранирование специальных символов (<tt>\.</tt> означает точку или <tt>\+</tt> —&nbsp;знак «плюс»)</td></tr><tr><td width="90"><tt>^</tt> и <tt>$</tt></td><td width="680">Начало и конец строки соответственно</td></tr><tr><td width="90"><tt>{n,m}</tt></td><td width="680">От <tt>n</tt> до <tt>m</tt> вхождений (<tt>{,m}</tt> —&nbsp;от 0 до <tt>m</tt>)</td></tr><tr><td width="90"><tt>a|b</tt></td><td width="680">Соответствует <tt>a</tt> или <tt>b</tt></td></tr><tr><td width="90"><tt>()</tt></td><td width="680">Группирует выражение и возвращает найденный текст</td></tr><tr><td width="90"><tt>\t</tt>, <tt>\n</tt>, <tt>\r</tt></td><td width="680">Символ табуляции, новой строки и возврата каретки соответственно</td></tr></tbody></table>


[здесь](https://www.rexegg.com/regex-quickstart.html) развернутая таблица синтаксиса

## Регулярные выражения в питоне

чтобы начать работать с регулярными выражениями в питоне, нам нужно импортировать модуль ``re``

    import re

* здесь [ссылка](https://docs.python.org/3/library/re.html) на его документацию и [ссылка на тьюториал](https://docs.python.org/3/howto/regex.html#regex-howto) 

а так выглядят основные функции модуля re 

<div class="table"><table>
<thead>
<tr>
<th>Функция</th>
<th>Что делает</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>re.match(pattern, string)</code></td>
<td>Найти по заданному шаблону <code>pattern</code> первое совпадение в начале строки<code>string</code></td>
</tr>
<tr>
<td><code>re.search(pattern, string)</code></td>
<td>Найти в строке <code>string</code> первую строчку, подходящую под шаблон <code>pattern</code> <br>ищет по всей строке, но возвращает только первое найденное совпадение</br></td>
</tr>
<tr>
<td><code>re.fullmatch(pattern, string)</code></td>
<td>Проверить, подходит ли строка <code>string</code> под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.split(pattern, string, maxsplit=0)</code></td>
<td>Аналог <code>str.split()</code>, только разделение происходит по подстрокам, подходящим под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.findall(pattern, string)</code></td>
<td>Найти в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code></td>
</tr>
<tr>
<td><code>re.sub(pattern, replace, string)</code></td>
<td>Заменить в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code> на <code>replace</code></td>
</tr>
</tbody>
</table></div>


Давайте попробуем!

In [1]:
import re

**re.match(pattern, string)**

метод ищет подстроку по заданному шаблону в начале строки 

In [4]:
result = re.match(r'hello', 'Hello my dear friend Amy')
# («r» перед строкой шаблона показывает, что это «сырая» строка в Python)

print (result)

# попробуйте найти hello вместо Hello

None


Строка найдена, но не показывается "понятно". По умолчанию, print покажет не только саму подстроку, но и мета-данные.

Чтобы вывести содержимое, используем метод ```.group()```

In [5]:
print (result.group(0))

AttributeError: 'NoneType' object has no attribute 'group'

**re.search(pattern, string)**

метод похож на match(), но ищет паттерн по всей длине строки

In [11]:
result = re.search(r'my', 'Hello my dear friend Amy')
print (result.group(0))

my


**re.fullmatch(pattern, string)**

проверяет, является ли паттерн полным совпадением со строкой

In [12]:
'Hello my dear' in 'Hello my dear friend Amy'

True

In [9]:
result = re.fullmatch(r'Hello my dear', 'Hello my dear friend Amy')
print (result)
#print (result.group(0))

None


**re.split(pattern, string, maxsplit=0)**

метод разделяет строку по заданному шаблону

In [55]:
result = re.split(r'e', 'Hello my dear friend Amy')
print (result)

['H', 'llo my d', 'ar fri', 'nd Amy']


* maxsplit= - опциональный аргумент. 
* Если его указать, то разделение будет произведено не более указанного количества раз

In [59]:
result = re.split(r'e', 'Hello my dear friend Amy',maxsplit=2)
print (result)

['H', 'llo my d', 'ar friend Amy']


**re.findall(pattern, string)**

возвращает список всех найденных совпадений

In [16]:
result = re.findall(r'my', 'Hello my dear friend Amy')
print (result) # обратите внимание, здесь мы не используем .group()

['my', 'my']


**re.sub(pattern, repl, string)**

метод ищет шаблон в строке и заменяет его на указанную подстроку.

Если шаблон не найден, строка остается неизменной.

In [53]:
result = re.sub(r'Amy','Jack', 'Hello my dear friend Amy')
print (result)

Hello my dear friend Jack


In [18]:
print (re.sub(r'(\b\w+)(\s+\1\b)+', r'\1', 'hello     there      there'))

hello     there


In [17]:
print (re.sub('(\\b\\w+)(\\s+\\1\\b)+', '\\1', 'hello     there      there'))

hello     there


## classwork

1. (```re.findall```) Напишите регулярное выражение, которое вытаскивало бы все адреса из документа **addresses.txt**


2. (```re.findall```+ работа с файлами) Детектим прямую речь в тексте. В файле **d_speech.txt** лежит текст, в котором есть строки с прямой речью. Напишите регулярное выражение, которое вытащит все строки с прямой речью. Запишите их (питоном, не руками) в отдельный .txt файл.

3. (```re.sub```) В документе **ея.txt** замените все случаи употребления строки "язык" на "шашлык"

In [1]:
import re

with open('addresses.txt', 'r', encoding='utf-8') as f:
    txt = f.read()

In [2]:
pattern = r"\n(\d+.+)\n(.+)\n(.+)"  # Все адреса состоят из трех lines, при этом первая line начинается с цифр 
res = re.findall(pattern, txt)
res

[('700 S. Flower Street', 'Suite 1700', 'Los Angeles, CA 90017'),
 ('700 S. Flower Street', 'Suite 1700', 'Los Angeles, CA 90017'),
 ('1600 Seventh Avenue', 'Suite 2600', 'Seattle, WA 98101'),
 ('1600 Seventh Avenue', 'Suite 2600', 'Seattle, WA 98101'),
 ('700 S. Flower Street', 'Suite 1700', 'Los Angeles, CA 90017')]

In [3]:
# 2. (```re.findall```+ работа с файлами) Детектим прямую речь в тексте. 
# В файле **d_speech.txt** лежит текст, в котором есть строки с прямой речью. 
# Напишите регулярное выражение, которое вытащит все строки с прямой речью. 
# Запишите их (питоном, не руками) в отдельный .txt файл.

import re 

with open('d_speech.txt', 'r', encoding='utf-8') as fromF:
    txt_speech = fromF.read()

In [4]:
speech_ptn = r"\n(—.+|«.+)"  # Берем каждую line, к-ая начинается с newline, за к-ой идет тире или кавычки 
speech_res = re.findall(speech_ptn, txt_speech)
speech_res[0:5]

['— Дайте мне консоме! — приказал он половому.',
 '— Прикажете с пашотом или без пашота?',
 '— Нет, с пашотом слишком сытно... Две-три гренки, пожалуй, дайте...',
 '«Как, однако, много подают в русских ресторанах! — подумал француз, глядя, как сосед поливает свои блины горячим маслом.— Пять блинов! Разве один человек может съесть так много теста?»',
 '— Челаэк! — обернулся он к половому.— Подай ещё порцию! Да что у вас за порции такие? Подай сразу штук десять или пятнадцать! Дай балыка... семги, что ли?']

In [5]:
with open('speech_res.txt', 'w', encoding='utf-8') as toF:
    for s in speech_res:
        toF.write(s + '\n')

In [6]:
# 3. (re.sub) В документе ея.txt замените все случаи употребления строки "язык" на "шашлык"

import re

with open('ея.txt', 'r', encoding='utf-8') as my_file:
    yazyk_txt = my_file.read()

In [7]:
shashlyk_txt = re.sub(r"язык|язы́к", "шашлык", yazyk_txt)
print(shashlyk_txt[:200])


Естественный шашлык
Материал из Википедии — свободной энциклопедии
Текущая версия страницы пока не проверялась опытными участниками и может значительно отличаться от версии, проверенной 16 апреля 201


In [8]:
with open('shashlyk.txt', 'w', encoding='utf-8') as to_my_F:
    to_my_F.write(shashlyk_txt)