# ОСНОВЫ PYTHON - теория

# 17. Регулярные выражения. Итоговый проект

## Регулярные выражения
В качестве дополнительного материала мы расскажем про регулярные выражения, с которыми рано или поздно вы можете столкнуться.

Регулярные выражения - выражения для поиска и замены части текста в строке или файле. Для работы с ними необходимо подключить модуль **"re"** из стандартной библиотеки Python.

Наиболее часто регулярные выражения используются для поиска в строке, разбиении строк, замены части строк. Вот некоторые методы для работы с регулярными выражениями:

### **re.match**(шаблон, строка) 
- ищет заданный шаблон с самого начала строки.

In [2]:
import re
print(re.match(r'Hey', 'Hey Hey'))

print('Данные нашлись')

<re.Match object; span=(0, 3), match='Hey'>
Данные нашлись


In [3]:
import re
print(re.match('Hey', 'hey Hey'))

print('Данные не нашлись, т.к. строка отличается от шаблона с первого символа.')
print('Обратите внимание на синтаксис, перед шаблоном ставится латинская буква r')
print('Ну-ну, буква r не нужна')

None
Данные не нашлись, т.к. строка отличается от шаблона с первого символа.
Обратите внимание на синтаксис, перед шаблоном ставится латинская буква r
Ну-ну, буква r не нужна


### **re.search**(шаблон, строка) 
- ищет заданный шаблон по всей строке, возвращает результат при первом совпадении.

In [10]:
import re
print(re.search('Hey', 'hey Hey').group(0))     # Добавляем метод group(), чтобы вывести содержимое поиска

Hey


### **re.findall**(шаблон, строка)
- ищет заданный шаблон и возвращает все совпадения в виде **списка**.

In [4]:
import re
print(re.findall('Hey', 'hey Hey Hey Hey'))

['Hey', 'Hey', 'Hey']


### **re.split**(шаблон, строка) 
- разделяет строку по заданному шаблону

In [13]:
import re
a = 'hey Hey Hey Hey'
print(re.split('y', a)) 

['he', ' He', ' He', ' He', '']


### **re.sub**(шаблон, замена, строка) 
- находит шаблон в строке и производит замену

In [14]:
import re
a = 'hey Hey Hey Hey'
print(re.sub('Hey', '?', a))

hey ? ? ?


### **re.compile**(шаблон) 
- позволяет собирать регулярное выражение в отдельный объект для последующего использования

In [15]:
ex_str = re.compile('Hey')

result = ex_str.findall('hey Hey Hey')
print (result)

result2 = ex_str.findall('Hey')
print (result2)

['Hey', 'Hey']
['Hey']


Перейдем к самой интересной части - представьте, что вам необходимо произвести чтение "грязного" файла и убрать из него все лишнее, но при этом вы не можете сказать точно, что необходимо убрать. Эту задачу можно решить, используя специальные символы:

### `.`   
Один любой символ, кроме символа переноса строки `\n`

In [10]:
print(re.findall(r'h..', 'hey Hey Hey Hey'))

['hey']


## Greedy quanitiers `+`, `*`, `?`

They are **greedy** in the sense that they take as long matching string as it is possible. For instance, if the RE `<.*>` is matched against `<a> b <c>`, it will match the entire string, and not just `<a>`. Adding `?` after the quantifier makes it perform the match in non-greedy or minimal fashion; as few characters as possible will be matched. Using the RE `<.*?>` will match only `<a>`.

In [29]:
import re
a = '<a> b <c>'
y = re.findall('<.*>', a)
print(y)

['<a> b <c>']


Also be aware of the **backtrackig** behaviour of the regex, this mechanism is explained later in the text.

### `+`	  
Causes the resulting RE to match **1 or more** repetitions of the preceding RE. `ab+` will match **‘a’ followed by any non-zero number of ‘b’s**; it will not match just ‘a’.

In [13]:
print(re.findall('H.+', 'hey Hey Hey Hey'))
print(re.findall('H+', 'hey Hey Hey Hey'))

['Hey Hey Hey']
['H', 'H', 'H']


In [17]:
import re
y = re.findall('ab+', 'a')
print(y)
y = re.findall('ab+', 'abc')
print(y)
y = re.findall('ab+', 'abbbb')
print(y)
y = re.findall('ab+', 'abbbbacaab')
print(y)

[]
['ab']
['abbbb']
['abbbb', 'ab']


In [25]:
import re
y = re.findall('abc+', 'a')
print(y)
y = re.findall('abc+', 'abcccc')
print(y)
y = re.findall('abc+', 'abbcbb')
print(y)
y = re.findall('abc+', 'abcabbbacaabcc')
print(y)

[]
['abcccc']
[]
['abc', 'abcc']


### `*`  

Causes the resulting RE to match **0 or more** repetitions of the preceding RE, as many repetitions as are possible. `ab*` will match **‘a’, ‘ab’, _or_ ‘a’ followed by any number of ‘b’s**.

In [11]:
print(re.findall('H*', 'hey Hey Hey Hey'))
print('This is the example of the RE\'s backtracking beahavior')

['', '', '', '', 'H', '', '', '', 'H', '', '', '', 'H', '', '', '']
This is the example of the RE's backtracking beahavior


> **Bactracking** means the RE starts searching from the beginning (or the end) and checks all the elements in the string for matching. When the match is False regex goes back and starts checking again from the next elements, having been always backtracking until it matches, then it goes further.

In [9]:
import re
y = re.findall('ab*', 'aa')
print(y)
y = re.findall('ab*', 'abc')
print(y)
y = re.findall('ab*', 'abbbb')
print(y)
y = re.findall('ab*', 'abbbbacaababb')
print(y)
y = re.findall('ab*', 'aa abb ddc aab')
print(y)


['a', 'a']
['ab']
['abbbb']
['abbbb', 'a', 'a', 'ab', 'abb']
['a', 'a', 'abb', 'a', 'ab']
['', '', '']


In [13]:
import re
y = re.findall('b*', 'a')
print(y)
print('Bactrackinng example again')

['', '']
Bactrackinng example again


> **Backtracking** again. The string consists of only **1** elements, but the output contains **2** empty strings. This happens because after first match failing (the first `''`) regex backtracks, finds nothing (no element, the second `''`) and stops.

### `?`	 

Causes the resulting RE to match **0 or 1** repetitions of the preceding RE. `ab?` will match **_either_ ‘a’ _or_ ‘ab’**.

In [28]:
import re
y = re.findall('ab?', 'a')
print(y)
y = re.findall('ab?', 'abc')
print(y)
y = re.findall('ab?', 'abbbb')
print(y)
y = re.findall('ab?', 'abbbbacaab')
print(y)

['a']
['ab']
['ab']
['ab', 'a', 'a', 'ab']


In [15]:
y = re.findall('a?', 'bb')
print(y)
print('Bactracking!')

['', '', '']
Bactracking!


## Lazy Quantifiers `*?`, `+?`, `??`  
The `*`, `+`, and `?` quantifiers are all **greedy**; they match as much text as possible. Sometimes this behaviour isn’t desired. To prevent such behavior and make it **'lazy'**, i.e. make the regex take the shortest possible text, we need to add `?` after our greedy quantifier:

In [16]:
import re
a = '<a> b <c>'
y = re.findall('<.*>', a)
print(y)
y = re.findall('<.*?>', a)
print(y)
y = re.findall('^<.*?>', a)  # ^ sign stands for 'from the beginning of the line'
print(y)

['<a> b <c>']
['<a>', '<c>']
['<a>']


### `*+`, `++`, `?+`   
Like the `*`, `+`, and `?` quantifiers, those where `+` is appended also match as many times as possible. However, unlike the true greedy quantifiers, these do not allow back-tracking when the expression following it fails to match. These are known as **possessive quantifiers**. 

For example, `a*a` will match `'aaaa'` because the `a*` will match all 4 `'a'`s, but, when the final `'a'` is encountered, the expression is backtracked so that in the end the `a*` ends up matching 3 `'a'`s total, and the fourth `'a'` is matched by the final `'a'`. However, when `a*+a` is used to match `'aaaa'`, the `a*+` will match all 4 `'a'`, but when the final `'a'` fails to find any more characters to match, the expression cannot be backtracked and will thus fail to match. `x*+`, `x++` and `x?+` are equivalent to `(?>x*)`, `(?>x+)` and `(?>x?)` correspondingly.  
> _New in version 3.11._

Check your Python version before uncommenting the code below

In [3]:
from platform import python_version
print(python_version())

3.9.13


In [3]:
import re
y = re.findall('a*a', 'aaaa')
print(y)
# y = re.findall('a*+a', 'aaaa')
# print(y)

['aaaa']


### `$`  
Matches the end of the string or just before the newline at the end of the string, and in MULTILINE mode also matches before a newline. foo matches both ‘foo’ and ‘foobar’, while the regular expression `foo$` matches only ‘foo’. More interestingly, searching for `foo.$` in `'foo1\nfoo2\n'` matches ‘foo2’ normally, but ‘foo1’ in MULTILINE mode; searching for a single `$` in `'foo\n'` will find two (empty) matches: one just before the newline, and one at the end of the string.

In [1]:
import re
a = 'foo1\nfoo2\n'
y = re.findall('foo.$', a)
print(y)

['foo2']


In [27]:
import re
a = 'foo\n'
y = re.findall('$', a)
print(y)

['', '']


### `{m}`  
Specifies that exactly _m_ copies of the previous RE should be matched; fewer matches cause the entire RE not to match. For example, `a{6}` will match exactly six `'a'` characters, but not five.

In [20]:
print(re.findall('\w{2}', 'hey. Hey1. Hey2. Hey3'))

['he', 'He', 'y1', 'He', 'y2', 'He', 'y3']


In [24]:
import re
y = re.findall('a{5}', 'abaaaaaacaababb')  # 6 'a'
print(y)
y = re.findall('a{5}', 'abaaaacaababb')  # 4 'a'
print(y)

['aaaaa']
[]


### `{m, n}`	
От m до n вхождений (`{,n}` — от 0 до n)

Causes the resulting RE to match from _m_ to _n_ repetitions of the preceding RE, attempting to match as many repetitions as possible. For example, `a{3,5}` will match from 3 to 5 `'a'` characters. Omitting _m_ specifies a lower bound of zero, and omitting _n_ specifies an infinite upper bound. As an example, `a{4,}b` will match `'aaaab'` or a thousand `'a'` characters followed by a `'b'`, but not `'aaab'`. The comma may not be omitted or the modifier would be confused with the previously described form.

In [19]:
import re
y = re.findall('a{2,4}', 'abaaaaaabcaababb')  # 6 'a'
print(y)
y = re.findall('a{,4}', 'abaaaaaabcaababb')
print(y)
y = re.findall('a{,4}b', 'abaaaaaabcaababb')
print(y)
y = re.findall('a{2,}', 'abaaaaaabcaababb')
print(y)
y = re.findall('a{2,}b', 'abaaaaaabcaababb')
print(y)

['aaaa', 'aa', 'aa']
['a', '', 'aaaa', 'aa', '', '', 'aa', '', 'a', '', '', '']
['ab', 'aaaab', 'aab', 'ab', 'b']
['aaaaaa', 'aa']
['aaaaaab', 'aab']


### `{m,n}?`  
Causes the resulting RE to match from _m_ to _n_ repetitions of the preceding RE, attempting to match as few repetitions as possible. This is the **non-greedy** version of the previous quantifier. For example, on the 6-character string `'aaaaaa'`, `a{3,5}` will match 5 `'a'` characters, while `a{3,5}?` will only match 3 characters.

Is it equal to `{m}`? Seems like it is only in the code where there are no additional symbols after `?`.

In [41]:
import re
y = re.findall('a{3,5}', 'aaaaaa')   # 6 'a'
print(y)
y = re.findall('a{3,5}?', 'aaaaaa')  # 6 'a'
print(y)
y = re.findall('a{3}', 'aaaaaa')     # 6 'a'
print(y)

['aaaaa']
['aaa', 'aaa']
['aaa', 'aaa']


In [37]:
y = re.findall('a{3,5}b', 'abaaaaaabcaabaaabb')   # 6 'a'
print(y)
y = re.findall('a{3,5}?b', 'abaaaaaabcaabaaabb')  # 6 'a'
print(y)
y = re.findall('a{3}b', 'abaaaaaabcaabaaabb')     # 6 'a'
print(y)

['aaaaab', 'aaab']
['aaaaab', 'aaab']
['aaab', 'aaab']


### `{m,n}+`  
Causes the resulting RE to match from _m_ to n repetitions of the preceding RE, attempting to match as many repetitions as possible without establishing any backtracking points. This is the **possessive version** of the quantifier above. For example, on the 6-character string `'aaaaaa'`, `a{3,5}+aa` attempt to match 5 `'a'` characters, then, requiring 2 more `'a'`s, will need more characters than available and thus fail, while `a{3,5}aa` will match with `a{3,5}` capturing 5, then 4 `'a'`s by backtracking and then the final 2 `'a'`s are matched by the final `aa` in the pattern. `x{m,n}+` is equivalent to `(?>x{m,n})`.
_New in version 3.11._  

In [48]:
import re
# y = re.findall('a{3,5}+aa', 'aaaaaa')   # 6 'a'
# print(y)
y = re.findall('a{3,5}', 'aaaaaa')   # 6 'a'
print(y)
y = re.findall('a{3,5}aa', 'aaaaaa')   # 6 'a'
print(y)

['aaaaa']
['aaaaaa']


`\w`	Любая цифра или буква (`\W` — все, кроме буквы или цифры)

In [26]:
print(re.findall(r'\w', 'hey Hey Hey Hey'))

['h', 'e', 'y', 'H', 'e', 'y', 'H', 'e', 'y', 'H', 'e', 'y']


`\d`	Любая цифра [0-9] (`\D` — все, кроме цифры)

In [27]:
print(re.findall(r'\d', 'hey Hey1 Hey2 Hey3'))

['1', '2', '3']


`\s`	Любой пробельный символ (`\S` — любой непробельный символ)

In [28]:
print(re.findall(r'\s', 'hey Hey1 Hey2 Hey3'))

[' ', ' ', ' ']


`\b`	Граница слова

In [29]:
print(re.findall(r'\b\w', 'hey, Hey1, Hey2, Hey3'))

['h', 'H', 'H', 'H']


`[...]`	Один из символов в скобках

In [30]:
print(re.findall(r'[Hy]', 'hey, Hey1, Hey2, Hey3'))

['y', 'H', 'y', 'H', 'y', 'H', 'y']


`[^..]` — любой символ, кроме тех, что в скобках

`\`	Экранирование специальных символов (`\.` означает точку или `\+` — знак «плюс»)

In [31]:
print(re.findall(r'\.', 'hey. Hey1. Hey2. Hey3'))

['.', '.', '.']


`^` и `$`	Начало и конец строки соответственно

In [36]:
print(re.findall(r'..$', 'hey. Hey1. Hey2. Hey3'))

['y3']


`a|b`	Соответствует a или b	

In [43]:
print(re.findall('h|3', 'hey. Hey1. Hey2. Hey3'))

['h', '3']


In [49]:
a = 'iper'
b = 'epipefhe'

print(re.findall('he|ll|0+', b))

['he']


`()`	Группирует выражение и возвращает найденный текст

In [39]:
print(re.findall(r'(\w\w\w)', 'hey. Hey1. Hey2. Hey3\n'))

['hey', 'Hey', 'Hey', 'Hey']


`\t,\n,\r` Символ табуляции, новой строки и возврата каретки соответственно

In [40]:
print(re.findall(r'\n', 'hey. Hey1. Hey2. Hey3\n'))

['\n']


Рассмотрим пример. Ниже представлен фрагмент лога - файла, записывающего события при работе программы:

In [3]:
logfile = open('logfile.txt', 'r')
for string in logfile:
    string = string.rstrip()
    print(string)

Oct 16 20:10:10 legacy sshd[59955]: Did not receive identification string from 211.156.128.23
Oct 16 20:19:43 legacy sshd[59961]: Illegal user patrick from 211.156.128.23
Oct 16 20:19:53 legacy sshd[59966]: Illegal user patrick from 211.156.128.23
Oct 16 20:20:22 legacy sshd[59981]: Illegal user rolo from 211.156.128.23
Oct 16 20:20:28 legacy sshd[59983]: Illegal user iceuser from 211.156.128.23
Oct 16 20:20:34 legacy sshd[59985]: Illegal user horde from 211.156.128.23
Oct 16 20:20:38 legacy sshd[59987]: Illegal user cyrus from 211.156.128.23
Oct 16 20:20:48 legacy sshd[59991]: Illegal user wwwrun from 211.156.128.23
Oct 16 20:20:58 legacy sshd[59993]: Illegal user matt from 211.156.128.23
Oct 17 01:29:25 legacy sshd[60366]: Illegal user test from 218.237.4.57
Oct 17 01:29:28 legacy sshd[60368]: Illegal user guest from 218.237.4.57
Oct 17 01:29:32 legacy sshd[60370]: Illegal user admin from 218.237.4.57
Oct 17 01:29:35 legacy sshd[60374]: Illegal user admin from 218.237.4.57
Oct 17 01:

В нем есть характерная строка, сообщающая, что программа не получила идентификатор пользователя при подключении:

`Did not receive identification string from ip_address`

Напишем программу, которая найдет все ip адреса таких неавторизованных юзеров:

In [35]:
import re
logfile = open('logfile.txt', 'r')
for string in logfile:
    if re.search('Did', string):
        print(re.findall('\d+\.\d+\.\d+\.\d+', string))
logfile.close()

['211.156.128.23']
['147.46.76.225']
['83.64.18.219']
['67.19.240.114']


In [42]:
import re
with open('logfile.txt', 'r') as x:
    for line in x:
        y = re.findall('Did not receive identification string from (\d+\.\d+\.\d+\.\d+)', line)
        if len(y) != 1: continue
        print(y)
        
# Another way, thanks to Dr. Chuck

['211.156.128.23']
['147.46.76.225']
['83.64.18.219']
['67.19.240.114']


In [37]:
import re
ip_lst = list()
with open('logfile.txt', 'r') as x:
    for line in x:
        y = re.findall('Did not receive identification string from (\d+\.\d+\.\d+\.\d+)', line)
        if len(y) != 1: continue
        ip_lst.append(y)
print(ip_lst)

[['211.156.128.23'], ['147.46.76.225'], ['83.64.18.219'], ['67.19.240.114']]


Мы построчно читаем файл и ищем строки, в которых есть сочетание 'Did'. В каждой такой строке мы находим ip адрес. Он состоит из 4 наборов цифр, разделенных точками между собой.

Здесь приведена [ссылка](https://regexcrossword.com/) на портал, где можно сыграть в кроссворд из регулярных выражений. Шаблоны записываются по горизонтали и вертикали и вам необходимо вписать тот символ, который удовлетворяет одному или нескольким шаблонам. Задания выстроены по уровню сложности от простого к сложному. С помощью этой игры вы сможете открыть для себя интересные полезные комбинации для формирования собственных шаблонов.