## Регулярные выражения

Регулярные выражения — формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов

Регулярные выражения можно использовать посредствам модуля [re](https://docs.python.org/3/library/re.html)

In [2]:
import re

**Синтаксис**

'.' -- В режиме по умолчанию точка соответсвует любому символу, кроме символа переноса строки ('\n'). Чтобы точка соответсвовала также символу переноса строки, то нужно в методе модуля указать флаг re.DOTALL (например, re.findall(<регулярное выражение>, <текст>, re.DOTALL))

'^' -- Символ начала строки. Если применить флаг re.MULTILINE, то данный символ будет указывать на начало каждый раз после переноса строки. Например, рассмотрим текст 'begin1 \n begin2'. Если мы ищем все вхождения соответсвующие '^begin.', не применяя флаг re.MULTILINE, то мы получим 'begin1'. Если применить re.MULTILINE, то получим ['begin1', 'begin2'] (также можно использовать '\A', который указывает на начало строки независимо от флагов)

'$' -- Символ конца строки. Аналогично можно указывать флаг re.MULTILINE (также можно использовать '\Z', который указывает на конец строки независимо от флагов)

'\*' -- Повторение фрагмента ноль или более раз. Регулярное выражение 'ab*' будет соответсвовать следующим строкам {'a', 'ab', 'abb', 'abbb', ...}

'+' -- Повторение фрагмента один или более раз. Регулярное выражение 'ab+' будет соответсвовать следующим строкам {'ab', 'abb', 'abbb', ...}

'?' -- Фрагмент либо присутствует, либо отсутствует. Регулярное выражение 'ab?' будет соответсвовать следующим строкам {'a', 'ab'}

Заметим, что соостветсвия в тексте ищатся "жадным" образом т.е. ищем подстроку наибольшой длины, удовлетворяющую данному регулярному выражению. Например, рассмотрим текст '<а> b <с>' и регулярное выражение <.*>, то поиск всех соответсвий нам даст ['<а> b <с>'], а не ['<а>', '<с>', '<а> b <с>']!

'{m}' -- Ровно m повторений данного символа

'{m,n}' -- От m до n повторений данного символа. Пытается найти максимальное вхождение. Например текст - 'aaaaaaa', регулярное выражение - 'a{3,5}', тогда результат поиска будет 'aaaaa'

'{m,n}?' -- От m до n повторений данного символа. Пытается найти максимальное вхождение. Например текст - 'aaaaaaa', регулярное выражение - 'a{3,5}?', тогда результат поиска будет 'aaa'

Чтобы специальные символы (например, ?) интерпретировались, как просто символы в тексте их нужно экранировать '\?'

'[ ]' -- Объеденение символов в набор. Ищем любой символ из набора
    
    -- Можем искать символы индивидуально, т.е. '[amk]' соответсвует вхождениям 'a', 'm', или 'k'
    -- Можно указывать диапазоны символов, например хотим искать все маленькие буквы английского алфавита - для этого не нужно вручную прописывать все 26 букв, а достаточно указать диапозон, следующим образом '[a-z]'. Символы входящие в диапазон определяются по таблицы ASCII
    -- Специальные символы теряют своё особое значение внутри квадратных скобок, например '[(+*)]' будет соответсвовать одному из символов '(', '+', '*', ')'
    -- Можно применять отрицание набора - '^', например регулярное выражение '[^a]' соответсвует всем символам, кроме 'a'
    -- Чтобы интерпретировать '[' как символ открывающейся скобки,  то его нужно экранировать '\['
   

'A|B' -- Ищем вхождения соответсвующие A или B

'( )' -- Задаём последовательность символов, например '(ab)' - ищем все вхождения комбинации 'ab'

'\b' -- Соответсвует пустой строке, но только в начале или в конце слова. Формально '\b' определяется как граница между символами '\w' и '\W' (или наоборот) или между символами '\w' и началом/концом строки. Это означает, что регулярное выражение '\bfoo\b' соответствует 'foo', 'foo.', '(foo)', 'bar foo baz', но не 'foobar' или 'foo3'

'\B' -- Соответствует пустой строке, но только тогда, когда она не находится в начале или конце слова. Это означает, что регулярное выражение 'py\B' соответствует строкам 'python','py3','py2', но не 'py', 'py.' или 'py!'

'\d' -- Соответсвует цифрам от 0 до 9

'\D' -- Соответсвует всем символам, кроме цифр от 0 до 9

'\s' -- Соответсвует пробельным символам - [ \t\n\r\f\v]

'\S' -- Соответсвует всем символам, кроме пробельных

'\w' -- Соответсвует [a-zA-Z0-9_] - символам букв, цифр и символу нижнего подчеркивания

'\W' -- Соответсвует всем символам кроме заявленным в '\w'

Заменить подстроку в строке можно с помощью метода [sub](https://lzone.de/examples/Python%20re.sub)

In [3]:
re.sub(r'[a-c]', ' SUB ', 'Alphabet Inc.')

'Alph SUB  SUB et In SUB .'

In [4]:
re.sub(r'[^a-c]', ' SUB ', 'Alphabet Inc.')

' SUB  SUB  SUB  SUB ab SUB  SUB  SUB  SUB  SUB c SUB '

In [5]:
re.sub(r'[\[\]]', '|', '[Hello] [World] [!]')

'|Hello| |World| |!|'

Найти все подстроки, которые соответвуют регулярному выражению, можно с помощью методов [findall, finditer](https://www.hackerrank.com/challenges/re-findall-re-finditer/problem)

In [6]:
re.findall(r'\w', 'Hello World!')

['H', 'e', 'l', 'l', 'o', 'W', 'o', 'r', 'l', 'd']

In [7]:
re.findall(r'\w....', 'Hello World!')

['Hello', 'World']

In [8]:
for r in [r'\w*', r'\w+', r'\w?', r'\w{1,4}']:
    print(r, ' -- ', re.findall(r, 'a aa aaa aaaa aaaaa'))

\w*  --  ['a', '', 'aa', '', 'aaa', '', 'aaaa', '', 'aaaaa', '']
\w+  --  ['a', 'aa', 'aaa', 'aaaa', 'aaaaa']
\w?  --  ['a', '', 'a', 'a', '', 'a', 'a', 'a', '', 'a', 'a', 'a', 'a', '', 'a', 'a', 'a', 'a', 'a', '']
\w{1,4}  --  ['a', 'aa', 'aaa', 'aaaa', 'aaaa', 'a']


** Задача 1. ** Реализуйте функцию, которая на вход принемает имя файла, далее выделите множество слов с помощью регулярных выражений и возвращает словарь, где ключь - слово, а значение - число его вхождений в файл.

In [30]:
def FindWords(filename):
    dictionary={}
    for line in open(filename,encoding='utf-8'):
        for i in re.findall(r'\s[А-я]+[-]*[А-я]*\s',line):
            i=i.lower()
            
            if '-' in i and i.split('-')[0]==i.split('-')[1]:
                i=i.split('-')[0]
                dictionary.setdefault(i,0)
                dictionary[i]+=2
            else:              
                dictionary.setdefault(i,0)
                dictionary[i]+=1
                
    return dictionary

In [36]:
freq_dict=FindWords('story.txt')
counter=1
for w in sorted(freq_dict,key=freq_dict.get,reverse=True):
    if counter<=10:
        print(w,freq_dict[w])
        counter+=1
    else:
        break

 и  24
 а  20
 не  13
 баба-яга  13
 ты  11
 да  9
 девочка  8
 в  8
 почему  8
 она  7


Проверить реализацию метода можно на файле story.txt. Распечатайте 10 наиболее частотных слов.

** Задача 2. ** Написать функцию, которая определяет является строка email-ом 

In [50]:
def is_email(string):
    match=re.match(r'^[A-z]+\@[A-z]+\.[a-z]+$',string)
    if match:
        return match.group()
    else:
        return 'not an e-mail' 

Применить данную функцию последовательно к строкам из списка ниже и распичатать строку и ответ функции для неё

In [51]:
strings = ['mail@mail.ru', 'bug@@@com.ru', 'bug@@@com.ru', '@val.ru', 
           'valid@megapochta.com', 'Just Text2', 'val@val', 
           'aa@aa.info', 'bug@@@com.ru', 'val@val.a.a.a.a', 
           '12323123@111[]][] ']

In [52]:
for i in strings:
    print(is_email(i))

mail@mail.ru
not an e-mail
not an e-mail
not an e-mail
valid@megapochta.com
not an e-mail
not an e-mail
aa@aa.info
not an e-mail
not an e-mail
not an e-mail


**Задача 3.** Написать функцию, которая находит в тексте все даты в формате DD/MM/YYYY

In [23]:
def FindDate(filename):
    result=[]
    for line in open(filename):
        result+=re.findall("(?:0[1-9]|[1-2][0-9]|3[0-1])[/](?:0[1-9]|1[0-2])\/d{4}",line)
    return result  

Проверить реализацию метода можно на файле text_with_date.txt

In [24]:
FindDate('text_with_date.txt')

['13/12/2017', '23/12/2017']