# Regular expressions

Регулярное выражение — это последовательность символов, используемая для поиска и(или) замены некоторого паттерна в строке (тексте или файле)

Регулярные выражения хороши, когда нам нужно вытащить из текста повторяющийся паттерн: номер телефона, конкретную фразу, адреса и тд.

[онлайн-редактор для регулярных выражений](https://regex101.com/r/F8dY80/3)

Чтобы начать работать с регулярными выражениями в питоне, нам нужно импортировать модуль ``re`` или установить библиотеку regex: pip install regex

* здесь [ссылка](https://docs.python.org/3/library/re.html) на его документацию и [ссылка на тьюториал](https://docs.python.org/3/howto/regex.html#regex-howto) 


In [1]:
import re #library

### Main Symbols

<table width="100%"><tbody><tr><th style="text-align: center;" width="90"><strong>Оператор</strong></th><th style="text-align: center;" width="680"><strong>Описание</strong></th></tr><tr><td width="90"><tt>.</tt></td><td width="680">Один любой символ, кроме новой строки <tt>\n</tt>.</td></tr><tr><td width="90"><tt>?</tt></td><td width="680">0 или 1 вхождение шаблона слева</td></tr><tr><td width="90"><tt>+</tt></td><td width="680">1 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>*</tt></td><td width="680">0 и более вхождений шаблона слева</td></tr><tr><td width="90"><tt>\w</tt></td><td width="680">Любая цифра или буква (<tt>\W</tt> —&nbsp;все, кроме буквы или цифры)</td></tr><tr><td width="90"><tt>\d</tt></td><td width="680">Любая цифра [0-9] (<tt>\D</tt> —&nbsp;все, кроме цифры)</td></tr><tr><td width="90"><tt>\s</tt></td><td width="680">Любой пробельный символ (<tt>\S</tt> —&nbsp;любой непробельный символ)</td></tr><tr><td width="90"><tt>\b</tt></td><td width="680">Граница слова</td></tr><tr><td width="90"><tt>[..]</tt></td><td width="680">Один из символов в скобках (<tt>[^..]</tt> —&nbsp;любой символ, кроме тех, что в скобках)</td></tr><tr><td width="90"><tt>\</tt></td><td width="680">Экранирование специальных символов (<tt>\.</tt> означает точку или <tt>\+</tt> —&nbsp;знак «плюс»)</td></tr><tr><td width="90"><tt>^</tt> и <tt>$</tt></td><td width="680">Начало и конец строки соответственно</td></tr><tr><td width="90"><tt>{n,m}</tt></td><td width="680">От <tt>n</tt> до <tt>m</tt> вхождений (<tt>{,m}</tt> —&nbsp;от 0 до <tt>m</tt>)</td></tr><tr><td width="90"><tt>a|b</tt></td><td width="680">Соответствует <tt>a</tt> или <tt>b</tt></td></tr><tr><td width="90"><tt>()</tt></td><td width="680">Группирует выражение и возвращает найденный текст</td></tr><tr><td width="90"><tt>\t</tt>, <tt>\n</tt>, <tt>\r</tt></td><td width="680">Символ табуляции, новой строки и возврата каретки соответственно</td></tr></tbody></table>


[здесь](https://www.rexegg.com/regex-quickstart.html) развернутая таблица синтаксиса

### re module functions

<div class="table"><table>
<thead>
<tr>
<th>Функция</th>
<th>Что делает</th>
</tr>
</thead>
<tbody>
<tr>
<td><code>re.match(pattern, string)</code></td>
<td>Найти по заданному шаблону <code>pattern</code> первое совпадение в начале строки<code>string</code></td>
</tr>
<tr>
<td><code>re.search(pattern, string)</code></td>
<td>Найти в строке <code>string</code> первую строчку, подходящую под шаблон <code>pattern</code> <br>ищет по всей строке, но возвращает только первое найденное совпадение</br></td>
</tr>
<tr>
<td><code>re.fullmatch(pattern, string)</code></td>
<td>Проверить, подходит ли строка <code>string</code> под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.split(pattern, string, maxsplit=0)</code></td>
<td>Аналог <code>str.split()</code>, только разделение происходит по подстрокам, подходящим под шаблон <code>pattern</code></td>
</tr>
<tr>
<td><code>re.findall(pattern, string)</code></td>
<td>Найти в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code></td>
</tr>
<tr>
<td><code>re.sub(pattern, replace, string)</code></td>
<td>Заменить в строке <code>string</code> все непересекающиеся шаблоны <code>pattern</code> на <code>replace</code></td>
</tr>
</tbody>
</table></div>


Давайте попробуем!

## match (pattern, string)

метод ищет подстроку по заданному шаблону в начале строки

In [4]:
text =  'Gorgonzola, ricotta! and mozarella? cheese went into the bar, met nachos.'

In [8]:
result = re.match(r'Gorgonzola', text)
# «r» перед строкой шаблона показывает, что это «сырая» строка в Python
# не рассматривай \ как экранирующий символ

print(result)
# попробуйте найти hello вместо Hello

<re.Match object; span=(0, 10), match='Gorgonzola'>


Чтобы вывести содержимое, используем метод .group() Он показывает вхождения искомого паттерна

In [9]:
print(result.group())

Gorgonzola


## fullmatch (pattern, string)

проверяет, является ли паттерн полным совпадением со строкой

In [3]:
result = re.fullmatch(r'Gorgonzola, ricotta! and mozarella? cheese went into the bar, met nachos.',
                      'Gorgonzola, ricotta and mozarella cheese went into the bar, met nachos.')

print(result)

print(result.group())

None


AttributeError: 'NoneType' object has no attribute 'group'

## search (pattern, string)

Ищет паттерн по всей длине строки

Вернется первое совпадение

Примеры: [разница search и match](https://docs.python.org/3/library/re.html#search-vs-match)

In [19]:
result = re.search(r'mozarella', text)
# print(result)

print(result)

print(result.group())

<re.Match object; span=(24, 33), match='mozarella'>
mozarella


## split (pattern, string, maxsplit=0)

Похож на ```.split()```.

Метод разделяет строку по заданному шаблону

In [24]:
result = re.split(r'\s',text) # любой пробельный символ
res2 = re.split("\.\s", text)
print(result)
print(res2)
# здесь результат можно сразу напечатать без метода .group()

['Gorgonzola,', 'ricotta', 'and', 'mozarella', 'cheese', 'went', 'into', 'the', 'bar,', 'met', 'nachos.']
['Gorgonzola, ricotta and mozarella cheese went into the bar, met nachos.']


In [8]:
res3 = re.split("[\.!\?]\s", text + '\nI love cheesy stories.')

print(text + '\nI love cheesy stories.')
print(res3)

# . + ? *
#res3 = re.split("[\.!?]\s|?$", text + '\nHow are you?')
# . - любой символ
# \. - точка, экранируем
# ? - 0 или 1 любой символ
# \? - воспросительный знак
#print(text + '\nHow are you?')


Gorgonzola, ricotta! and mozarella? cheese went into the bar, met nachos.
I love cheesy stories.
['Gorgonzola, ricotta', 'and mozarella', 'cheese went into the bar, met nachos', 'I love cheesy stories.']


In [30]:
#maxsplit - опциональный аргумент.
#Если его указать, то разделение будет произведено не более указанного количества раз

result = re.split(r' ', text, maxsplit=2)

print(result)

['Gorgonzola,', 'ricotta', 'and mozarella cheese went into the bar, met nachos.']


## findall (pattern, string)

In [10]:
result = re.findall(r'bar', text)
print(result)

['bar']


In [14]:
res2 = re.findall(r"m.*", text) # добавляем квантификатор *
print(res2)

['mozarella? cheese went into the bar, met nachos.']


In [18]:
# попробуйте с буквой e  или r
result = re.findall(r'\w*my', text)
print(result)

NameError: name 'text' is not defined

## findall examples

In [15]:
import re

twister = "Two toads, terribly tired, trotted along the road.\nSaid toad number 1 12 to the toad number Two:\n'I'm tired, and I'm carrying the load."
print(re.findall(r'.+', twister))
print(re.findall(r'\d+', twister))
print(re.findall(r'[0-9]+', twister))
print(re.findall(r'[0-9]', twister))
print(re.findall(r'\D+', twister))
print(re.findall(r'\w+', twister))
print(re.findall(r'\W+', twister))
print(re.findall(r'\w', twister))
print(re.findall(r'\s+', twister))
print(re.findall(r'\S+', twister))

['Two toads, terribly tired, trotted along the road.', 'Said toad number 1 12 to the toad number Two:', "'I'm tired, and I'm carrying the load."]
['1', '12']
['1', '12']
['1', '1', '2']
['Two toads, terribly tired, trotted along the road.\nSaid toad number ', ' ', " to the toad number Two:\n'I'm tired, and I'm carrying the load."]
['Two', 'toads', 'terribly', 'tired', 'trotted', 'along', 'the', 'road', 'Said', 'toad', 'number', '1', '12', 'to', 'the', 'toad', 'number', 'Two', 'I', 'm', 'tired', 'and', 'I', 'm', 'carrying', 'the', 'load']
[' ', ', ', ' ', ', ', ' ', ' ', ' ', '.\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ":\n'", "'", ' ', ', ', ' ', "'", ' ', ' ', ' ', '.']
['T', 'w', 'o', 't', 'o', 'a', 'd', 's', 't', 'e', 'r', 'r', 'i', 'b', 'l', 'y', 't', 'i', 'r', 'e', 'd', 't', 'r', 'o', 't', 't', 'e', 'd', 'a', 'l', 'o', 'n', 'g', 't', 'h', 'e', 'r', 'o', 'a', 'd', 'S', 'a', 'i', 'd', 't', 'o', 'a', 'd', 'n', 'u', 'm', 'b', 'e', 'r', '1', '1', '2', 't', 'o', 't', 'h', 'e', '

In [16]:
twister = "Two toads, terribly tired, trotted along the road.\nSaid toad number 1 12 to the toad number Two:\n'I'm tired, and I'm carrying the load."
print(re.findall(r'[trl]oad', twister))
print(re.findall(r'[trl]oad\b', twister))
print(re.findall(r'[^s]oad\b', twister))
print(re.findall(r'[rl]oad\b', twister))
print(re.findall(r'[A-Za-z]+', twister))

['toad', 'road', 'toad', 'toad', 'load']
['road', 'toad', 'toad', 'load']
['road', 'toad', 'toad', 'load']
['road', 'load']
['Two', 'toads', 'terribly', 'tired', 'trotted', 'along', 'the', 'road', 'Said', 'toad', 'number', 'to', 'the', 'toad', 'number', 'Two', 'I', 'm', 'tired', 'and', 'I', 'm', 'carrying', 'the', 'load']


In [None]:
s = 'Кошка и ёжик играют с мячом, but dog does not play with ball'
print(re.findall(r'[A-Za-z]+', s))
print(re.findall(r'[а-яА-ЯЁё]+', s))
print(re.findall(r'[а-яА-ЯЁёA-Za-z]+', s))

In [None]:
# извлечь дату: день месяц год
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \nговорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."
print(re.findall(r'\d+', text))
print(re.findall(r'\d{1,2}\s\w+\s\d{4}', text))
print(re.findall(r'\d{1,2} \w+ \d{4}', text))

In [None]:
# найти приглагательное с основой 'удивительн'
text = "12 ноября 2011 года произошло удивительное событие, удивительного. А 13 ноября 2012 - еще удивительнее. Даже не будем \nговорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."
print(re.findall(r'удивительн..', text))
print(re.findall(r'удивительн.{2,3}', text))

In [None]:
# найти все пары имен
names = "1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily"
print(re.findall(r'\d[A-Z][a-z]+[A-Z][a-z]+', names))
print(re.findall(r'\d([A-Z][a-z]+)([A-Z][a-z]+)', names))

## sub(pattern, repl, string)

Метод ищет шаблон в строке и заменяет его на указанную подстроку.

Если шаблон не найден, строка остается неизменной.

In [17]:
result = re.sub(r'Gorgonzola','Cheddar', text ) # что ищем, на что заменяем, где заменить (текст)

print(result)

Cheddar, ricotta! and mozarella? cheese went into the bar, met nachos.


In [None]:
result = re.sub(r'Gorgonzola','Cheddar', text ) # что ищем, на что заменяем, где заменить (текст)

print(result)

## Examples

In [None]:
* (re.findall) Напишите регулярное выражение, которое вытаскивало бы все адреса из документа addresses.txt
* (re.sub) Из текта в файле "морж-корж.txt" возьмите текст и замените все вхождения слова "морж" на слово "корж"

In [3]:
with open("Data/addresses.txt", "r", encoding="utf-8") as file: 
  print(*re.findall(r"\w*[@]\w*[\.].*", file.read()), sep=", ")

Contact@nordstrom.com, Breen@HauteLook.com, nordstrom@nordstrom.com, Thomas@nordstrom.com, nordstrom@nordstrom.com, Nordstrom@nordstrom.com


In [2]:
with open("Data/морж-корж.txt", "r", encoding = "utf-8") as f:
    #print(f.read())
    r = re.sub(r"Морж", "Корж", f.read())
    e = re.sub(r"морж", "корж", r)
    print(e)

Корж[1] (кильд. mоršа, норв. morššâ, лат. Odobenus rosmarus) — морское млекопитающее, единственный современный вид семейства коржовых клады ластоногих отряда хищных.

Взрослый корж легко узнаваем по своим видным бивням. Корж — один из крупнейших представителей ластоногих, по размерам тела среди ластоногих уступает лишь морским слонам[2]. Ареалы этих видов не пересекаются, то есть корж является крупнейшим из ластоногих в своей среде обитания.

Зимнее плавание в России называется «коржеванием».

В 2008 году, по инициативе Всемирного фонда дикой природы (WWF), утверждён День коржа, который отмечается ежегодно 24 ноября.

Корж — крупный морской зверь с очень толстой кожей. Верхние клыки чрезвычайно развиты, удлинённы и направлены вниз. Очень широкая морда усажена многочисленными толстыми, жёсткими, сплющенными щетинами-усами (вибриссами), их у коржа на верхней губе может быть от 400 до 700, расположены они в 13—18 рядов[4]. Наружных ушей нет, глаза маленькие.

Кожа покрыта короткими прилег