# Семинар 5 - Регулярные выражения

![](img/50.png)

## Что такое регулярные выражения

Есть задача — валидация e-mail адресов.

Эту задачу можно решить разными способами: используя посимвольное сравнение строки с ожидаемым шаблоном, используя разбиение строки на подстроки и дальнейшую работу с ними.

Однако эту задачу можно решить проще, используя регулярные выражения.

In [8]:
emails = ['my-cool-email@mail.ru', 'плохой)address^mail@brr.dom.']

emails.each do |email|
  if email =~ /^[\w0-9._%+-]+@[\w0-9-]+.+.[\w]{2,}$/i then
    puts "#{email} — валидный адрес электронной почты"
  else
    puts "#{email} — невалидный адрес электронной почты"
  end
end

my-cool-email@mail.ru — валидный адрес электронной почты
плохой)address^mail@brr.dom. — невалидный адрес электронной почты


["my-cool-email@mail.ru", "плохой)address^mail@brr.dom."]

**Регулярные выражения** — это формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов. Для поиска используется шаблон, состоящий из символов и метасимволов и задающий правило поиска.

**Метасимвол** —  это символ или несколько символов, используемых в шаблоне для определения чего-либо или указания какой-то «директивы» алгоритму поиска. Метасимволы трактуются в шаблоне не буквально, а имеют особое значение.

**Шаблон** — это последовательность _обычных_ символов и _метасимволов_, которые определяют условия и критерии поиска в строке. Шаблон разграничивается с окружающим кодом разделителями.

Примеры шаблонов:

* `abcd12\w45` — шаблон, который соответствует любой подстроке, состоящей по порядку: из **одной** подстроки `abcd12`, **одного** любого символа английского алфавита _или_ цифры, а затем двух цифр — 45.

* `[e-l]\s?\d+` — шаблон, который соответствует любой подстроке, состоящей по порядку: из **одного** символа в диапазоне английских букв от `e` до `l`, **одному** пробельному символу _или_ **нулю** таких символов, и **одному** _или_ **более** десятичных цифр.

### Как писать эти шаблоны?

* Обычно шаблоны разграничиваются слэшами: `/`


* В простейшем случае, если мы ищем определённое слово, то можно обойтись регуляркой следующего вида:
```
/искомоеслово/
```


* Если мы ищем несколько слов на выбор, то можно использовать метасимвол `|`:
```
/словоодин|словодва/
```
Этот метасимвол экваивалентен логической функции ИЛИ.

### А что, если нам нужно сделать более общий поиск?

Для этого есть **классы символов** — множества символов, объединённых каким-то общим свойством.

Можно определять классы самому:

* `[a-l]` — диапазон символов латиницы в нижнем регистре, находящихся в английском алфавите между a и l, включая их.

В классы символов могут попадать _абсолютно любые символы_. Хоть #, хоть %, хоть :. При этом классы можно определять перечислением, дефис (`-`) можно опустить:

* `[%^&*()]` — класс символов, в который входят символы `%`, `^`, `&`, `*`, `(`, `)`.

Однако если вы хотите использовать дефис в своём классе, то его нужно _экранировать_ с помощью _бэкслеша_ `\`.

* `[\-_=]` — класс символов, состоящий из `-`, `_`, `=`.


Чаще всего используют встроенные классы символов:

* `\w` — любой символ английского алфавите в любом регистре, десятичные цифры и символ подчёркивания.

* `\W` — любой символ, _кроме_ тех, что перечислены выше.

* `.` — любой символ, _кроме_ перевода новой строки `\n`. Да, это метасимвол. :)

* `\d` — любая десятичная цифра.

* `\s` — любой пробельный непечатаемый символ (эквивалентно классу `[ \t\r\n\f\v]`).

Есть гораздо больше классов, но если нужно, вы сами найдёте.

Также есть возможность определять классы, содержащие все символы _кроме_ каких-то:

* `[^a-z]` — все символы, _кроме_ символов латиницы в нижнем регистре.

### А можно как-то определять начало и конец строки?

Действительно, это вполне нормальный вопрос, который может возникнуть. До этого все наши изыскания были связаны лишь с подстроками в целой строке. Но что, если нам нужно сопоставлять с образцом целую строку? Для этого существуют два метасимвола, `^` и `$`.

`^` — «крышечка» или циркумлфекс — **метасимвол начала строки**.

`$` — знак доллара — **метасимвол конца строки**.

### Отлично, мы можем сопоставлять с шаблонами, а можно ли что-то помимо этого?

Да, конечно, и для этого нам понадобится узнать, что такое группы, а также какие они бывают.

**Группы** — это последовательности символов в круглых скобках.
Круглые скобки используются для определения области действия и приоритета операций. 
Таким образом можно выделять подшаблоны в шаблонах. Например:

* `hello(\w\d\w)world` — при помощи группировки мы выделили подшаблон, состоящий из одного цифробуквенного символа, одной десятичной цифры и ещё одного цифробуквенного символа.

Группы обычно используются вне самих регулярных выражений и при операциях манипулирования строками. В таких случаях удобно иметь **именованные группы** — группы, имеющие определённые имена, при помощи которых можно ссылаться на них. Например:

* `hello, (?<name>[A-Z][a-z]+)`

Помимо этого группы бывают **захватывающие** (так называемые **захваты**) и **незахватывающие**.
Это имеет значение, когда нам важна лишь конкретная часть нашего шаблона
Всё, что выше мы определяли, относилось к захватывающим группам.
  
Однако можно определить группу незахватывающей:

* `(?:non-capturing)(group)`

### Это всё замечательно, но нам всегда нужно повторять эти шаблоны? Или как-то можно определить их количество?

Можно, и для этого существуют **квантификаторы**. Квантификаторы — это метасимволы, указывающие, сколько раз будет повторяться у нас _символ из класса символов_, _символ_ или _группа_. Существуют следующие квантификаторы:

* `a?` — повтор символа `a` _ноль_ раз или _один_ раз.

* `a*` — повтор символа `a` _ноль_ или _более_ раз.

* `a+` — повтор символа `a` _один_ или _более_ раз.

* `a{m}` — повтор символа `a` _ровно m_ раз.

* `a{n,}` — повтор символа `a` _n_ или _более_ раз.

* `a{m,n}` — повтор символа `a` в диапазоне между _m_ и _n_ раз.


### Это всё круто, но я ничего не понял, поэтому могу допускать ошибки и вообще писать неправильно. Где-то можно попрактиковаться с этими вашими регулярными выражениями? Есть ли шпаргалка по этому всему?

Есть хороший веб-ресурс — [Rubular](http://rubular.com/). Там можно протестировать свои регулярки и посмотреть на маленькую шпаргалку по их составлению.

## Регулярные выражения в Ruby

### Класс Regexp

Явный вызов конструктора (используется редко).

In [6]:
a = Regexp.new 'a'
a.class

Regexp

Краткая форма создания - две косые черты в начале и конце.

In [7]:
w = /\w/
w.class

Regexp

Регулярные выражения можно сравнивать между собой с помощью оператора `==`. В этом случае оператор `==` ведет себя точно так же, как и при сравнении массивов, чисел, чего угодно.

In [2]:
/a/ == /a/

true

In [3]:
/a+/ == /a/

false

### Матчи

Для проверки матча используется метод `match`. В качестве аргумента этот метод принимает строку, в которой и нужно искать матчи.

In [13]:
rxp = /^\w+$/

p rxp.match 'correct'
p rxp.match 'w rong'

#<MatchData "correct">
nil


Если нет матчей, вернется `nil`.

Если писать `match` не хочется, можно использовать оператор ``=~`.

In [14]:
p rxp =~ 'correct'
p rxp =~ 'w rong'

0
nil


Оператор `=~` в отличие от `match` вернет **индекс первого матча**. `match` возвращает специальный объект - по сути обертку над этим самым индексом. 

In [16]:
word_rxp = /\w+/

string = 'word another'

method_match = word_rxp.match string
operator_match = word_rxp =~ string

p method_match
p operator_match

#<MatchData "word">
0


0

### Именованные группы и немного магии

Мы создаем регулярное выражение, в котором есть две именованные группы - lhs и rhs (left-hand side и right-hand side) - левое и правое слова.

Сматчим строку, содержащую два слова. Все будет хорошо. А что если мы захотим обратиться к именованной группе (а иначе зачем мы ее именовали?)).

In [18]:
rexp = /(?<lhs>\w+)(?<rhs>\w+)/

p rexp =~ 'word another'

p lhs
p rhs

0


NameError: undefined local variable or method `lhs' for main:Object

Ничего не работает и это логично, ведь lhs и rhs никак нами не объявлены.

# НО

In [20]:
p /(?<lhs>\w+) (?<rhs>\w+)/ =~ 'word another'

p lhs
p rhs

0
"word"
"another"


"another"

Если не создавать специального объекта с регуляркой, то такая неявная магия будет работать, потому что интерпретатор объявит переменные lhs и rhs за нас.

![](img/51.jpg)

Нужно ли этим пользоваться - **НЕТ**.

### Регулярные выражения в строке

Regexp используется как правило для сравнения строки с шаблоном. Если же мы хотим найти какие-то шаблоны внутри строки и что-то с ними сделать, например, посчитать или на что-то заменить, гораздо удобнее было бы вызывать методы строки. В Ruby есть такая возможность.

#### String#scan

Возвращает массив матчей. Нужен как правило для того, чтобы посчитать количество матчей или вообще понять, есть ли таковые в строке.

In [31]:
'aaa 111 bbb'.scan(/[A-Za-z]+/)

["aaa", "bbb"]

In [28]:
'aaa bbb'.scan(/\d+/)

[]

#### String#sub

Заменяет **первое вхождение** регулярного выражения.

In [29]:
'aaa 111 bbb'.sub /[A-Za-z]+/, 'ЗАМЕНА'

"ЗАМЕНА 111 bbb"

#### String#gsub

Заменяет **первое вхождение** регулярного выражения.

In [32]:
'aaa 111 bbb'.gsub /[A-Za-z]+/, 'ЗАМЕНА'

"ЗАМЕНА 111 ЗАМЕНА"

Методы `sub` и `gsub` могут также принимать в качестве второго агрумента **словарь**

In [33]:
'ae'.gsub /[ae]/, 'a' => '14', 'e' => '88' 

"1488"

**И самое главное** - они могут принимать на вход **блок кода**! 

Этот блок кода принимает на вход построку - матч. Причем в этом блоке можно также вызывать `sub`, `gsub` или другой метод для строки.

## Задачи