<a href="https://colab.research.google.com/github/nstsj/python_for_CL/blob/master/13Nov2019.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## логика регулярных выржений и зачем они нужны

регулярное выражение — это последовательность символов, используемая для поиска и(или) замены некоторого паттерна в строке (тексте или файле) 

регулярные выражения хороши, когда нам нужно вытащить из текста *повторяющийся паттерн*: номер телефона, конкретную фразу, адреса и тд.

<img src="https://imgs.xkcd.com/comics/regular_expressions.png">

регулярные выражения можно использовать не только в питоне! Можно везде, где поддерживается их синтаксис (например, терминал, Excel/Google Sheets, Sublime Text и тд)

* Для работы в терминале потребуется команда ```grep``` (= General Regular Expressions) [ссылка1, Eng](https://www.geeksforgeeks.org/grep-command-in-unixlinux/)  и [ссылка2, Rus](http://blog.sedicomm.com/2018/07/22/12-prakticheskih-primerov-komandy-grep-v-linux/)


* Здесь можно посмотреть, как использовать регулярные выражения в Google Sheets ([1](https://www.distilled.net/how-to-use-regex-in-google-sheets/), [2](https://support.google.com/docs/answer/62754?hl=en) ) и в Sublime Text ([3](http://webcache.googleusercontent.com/search?q=cache:http://docs.sublimetext.info/en/latest/search_and_replace/search_and_replace_overview.html))

**онлайн-способы проверить регулярки:**

[1](https://regexr.com/)

[2](https://www.debuggex.com/) (не забудьте выбрать Python в выпадающем окне!)

[3](https://regex101.com/r/F8dY80/3)

подсказки по синтаксису регулярных выражений:



<table width="100%"><tbody><tr><th style="text-align: center;" width="90"><strong>Оператор</strong></th><th style="text-align: center;" width="680"><strong>Описание</strong></th></tr><tr><td width="90"><tt>.</tt></td><td width="680">Один любой символ, кроме новой строки <tt>\n</tt>.</td></tr><tr><td width="90"><tt>?</tt></td><td width="680">0 или 1 вхождение шаблона слева</td></tr><tr><td width="90"><tt>+</tt></td><td width="680">1 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>*</tt></td><td width="680">0 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>\w</tt></td><td width="680">Любая цифра или буква (<tt>\W</tt> —&nbsp;все, кроме буквы или цифры)</td></tr><tr><td width="90"><tt>\d</tt></td><td width="680">Любая цифра [0-9] (<tt>\D</tt> —&nbsp;все, кроме цифры)</td></tr><tr><td width="90"><tt>\s</tt></td><td width="680">Любой пробельный символ (<tt>\S</tt> —&nbsp;любой непробельный символ)</td></tr><tr><td width="90"><tt>\b</tt></td><td width="680">Граница слова</td></tr><tr><td width="90"><tt>[..]</tt></td><td width="680">Один из символов в скобках (<tt>[^..]</tt> —&nbsp;любой символ, кроме тех, что в скобках)</td></tr><tr><td width="90"><tt>\</tt></td><td width="680">Экранирование специальных символов (<tt>\.</tt> означает точку или <tt>\+</tt> —&nbsp;знак «плюс»)</td></tr><tr><td width="90"><tt>^</tt> и <tt>$</tt></td><td width="680">Начало и конец строки соответственно</td></tr><tr><td width="90"><tt>{n,m}</tt></td><td width="680">От <tt>n</tt> до <tt>m</tt> вхождений (<tt>{,m}</tt> —&nbsp;от 0 до <tt>m</tt>)</td></tr><tr><td width="90"><tt>a|b</tt></td><td width="680">Соответствует <tt>a</tt> или <tt>b</tt></td></tr><tr><td width="90"><tt>()</tt></td><td width="680">Группирует выражение и возвращает найденный текст</td></tr><tr><td width="90"><tt>\t</tt>, <tt>\n</tt>, <tt>\r</tt></td><td width="680">Символ табуляции, новой строки и возврата каретки соответственно</td></tr></tbody></table>


[здесь](https://www.rexegg.com/regex-quickstart.html) развернутая таблица синтаксиса

## Регулярные выражения в питоне

чтобы начать работать с регулярными выражениями в питоне, нам нужно импортировать модуль ``re``

    import re

* здесь [ссылка](https://docs.python.org/3/library/re.html) на его документацию и [ссылка на тьюториал](https://docs.python.org/3/howto/regex.html#regex-howto) 

а так выглядят основные функции модуля re 

<div class="table"><table>
<thead>
<tr>
<th>Функция</th>
<th>Что делает</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>re.match(pattern, string)</code></td>
<td>Найти по заданному шаблону <code>pattern</code> первое совпадение в начале строки<code>string</code></td>
</tr>
<tr>
<td><code>re.search(pattern, string)</code></td>
<td>Найти в строке <code>string</code> первую строчку, подходящую под шаблон <code>pattern</code> <br>ищет по всей строке, но возвращает только первое найденное совпадение</br></td>
</tr>
<tr>
<td><code>re.fullmatch(pattern, string)</code></td>
<td>Проверить, подходит ли строка <code>string</code> под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.split(pattern, string, maxsplit=0)</code></td>
<td>Аналог <code>str.split()</code>, только разделение происходит по подстрокам, подходящим под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.findall(pattern, string)</code></td>
<td>Найти в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code></td>
</tr>
<tr>
<td><code>re.sub(pattern, replace, string)</code></td>
<td>Заменить в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code> на <code>replace</code></td>
</tr>
</tbody>
</table></div>


Давайте попробуем!

In [0]:
import re

**re.match(pattern, string)**

метод ищет подстроку по заданному шаблону в начале строки 

In [158]:
result = re.match(r'Hello my', 'Hello my dear 1984 friend Amy\n 77895')
# («r» перед строкой шаблона показывает, что это «сырая» строка в Python)

print (result)
# попробуйте найти hello вместо Hello

<_sre.SRE_Match object; span=(0, 8), match='Hello my'>


Строка найдена, но не показывается "понятно". По умолчанию, print покажет не только саму подстроку, но и мета-данные.

Чтобы вывести содержимое, используем метод ```.group()```

In [159]:
print (result.group())

Hello my


**re.search(pattern, string)**

метод похож на match(), но ищет паттерн по всей длине строки

In [154]:
result = re.search(r'my', 'Hello my dear friend Amy')
print (result.group())

my


**re.fullmatch(pattern, string)**

проверяет, является ли паттерн полным совпадением со строкой

In [153]:
result = re.fullmatch(r'Hello my dear friend Amy', 'Hello my dear friend Amy')
print (result)
print ("\n",result.group())


<_sre.SRE_Match object; span=(0, 24), match='Hello my dear friend Amy'>

 Hello my dear friend Amy


**re.split(pattern, string, maxsplit=0)**

метод разделяет строку по заданному шаблону

In [152]:
result = re.split(r'e','Hello my dear friend Amy, eee eee')
print (result)

['H', 'llo my d', 'ar fri', 'nd Amy, ', '', '', ' ', '', '', '']


* maxsplit= - опциональный аргумент. 
* Если его указать, то разделение будет произведено не более указанного количества раз

In [150]:
result = re.split(r'e', 'Hello my dear friend Amy, eee eee',maxsplit=3)
print (result)

['H', 'llo my d', 'ar fri', 'nd Amy, eee eee']


**re.findall(pattern, string)**

возвращает список всех найденных совпадений

In [148]:
result = re.findall(r'o', 'Hello my dear friend Amy')
print (result) # обратите внимание, здесь мы не используем .group()

['o']


**re.sub(pattern, repl, string)**

метод ищет шаблон в строке и заменяет его на указанную подстроку.

Если шаблон не найден, строка остается неизменной.

In [146]:
text = 'Hello my dear friend Amy. How are you, Amy?'
result = re.sub(r'Amy','Jack', text ) 
# третьим аргументом может быть не только строка сама по себе, но и переменная, в которую сохранена строка

print (result)

Hello my dear friend Jack. How are you, Jack?


## classwork

1. (```re.findall```) Напишите регулярное выражение, которое вытаскивало бы все адреса из документа **addresses.txt**


2. (```re.findall```+ работа с файлами) Детектим прямую речь в тексте. В файле **d_speech.txt** лежит текст, в котором есть строки с прямой речью. Напишите регулярное выражение, которое вытащит все строки с прямой речью. Запишите их (питоном, не руками) в отдельный .txt файл.

3. (```re.sub```) В документе **ея.txt** замените все случаи употребления строки "язык" на "шашлык"

## способы загрузить файл, если вы хотите работать в колабе:

In [121]:
# шаг 1. Загружаем файл
# Способ 1: импортируем модуль, добавляем файл через окно загрузки
from google.colab import files
files.upload()

Saving addresses.txt to addresses.txt


{'addresses.txt': b'Nordstrom Rack and HauteLook\nNordstrom Rack is the off-price retail division of Nordstrom Inc., which was founded in 1901 in Seattle, Washington, by John W. Nordstrom.\n\nNordstrom encourages contact from its customers and has supplied contact details to us.\n\n700 S. Flower Street\nSuite 1700\nLos Angeles, CA 90017\nhttps://www.nordstromrack.com/\n\nPhone Contacts\nMain: (206) 628-2111\nCustomer Service: (888)966-6283\nInternational: (319) 846-4140\n\nNordstrom Customer Service: (888)282-6060\n\n \n\nEmail Contacts\nContact@nordstrom.com\n\nSocial Media Contacts\nFacebook\nTwitter\n\nExecutive Contacts\nPrimary Contact\nAndrew Breen\nDirector Customer Care\n700 S. Flower Street\nSuite 1700\nLos Angeles, CA 90017\nAndrew.Breen@HauteLook.com\n\nSecondary Contact\nJames F. Nordstrom\nExecutive Vice President and President of Nordstrom Stores\n1600 Seventh Avenue\nSuite 2600\nSeattle, WA 98101\nJamie.nordstrom@nordstrom.com\n\nGeevy Thomas\nPresident of Nordstrom Rack

In [130]:
# Способ 2: с помошью терминальной команды wget 

! wget https://github.com/nstsj/python_for_CL/blob/master/regexes/%D0%B5%D1%8F.txt

--2019-11-13 18:07:11--  https://github.com/nstsj/python_for_CL/blob/master/regexes/%D0%B5%D1%8F.txt
Resolving github.com (github.com)... 140.82.113.4
Connecting to github.com (github.com)|140.82.113.4|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: unspecified [text/html]
Saving to: ‘ея.txt’

ея.txt                  [  <=>               ]  89.55K   242KB/s    in 0.4s    

2019-11-13 18:07:13 (242 KB/s) - ‘ея.txt’ saved [91698]



In [0]:
# шаг 2: открываем, читаем файл
with open("./addresses.txt", 'r') as myfile:
    addr = myfile.read()

In [145]:
type(addr) # проверяем ее тип,если не строка, делаем строкой

str

Шаг 3: дальше (регулярками) работаем с переменной, в которую сохранена строка