## Regular expressions

can look for a code and commands in this [github page](https://github.com/CoreyMSchafer/code_snippets/tree/master/Python-Regular-Expressions)

```
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
```
to escape character use \ before the character. Ex.: 
```
\.  \*  \^ 
```


```
.       - Any Character Except New Line
\d      - Digit (0-9)
\D      - Not a Digit (0-9)
\w      - Word Character (a-z, A-Z, 0-9, _)
\W      - Not a Word Character
\s      - Whitespace (space, tab, newline)
\S      - Not Whitespace (space, tab, newline)

\b      - Word Boundary
\B      - Not a Word Boundary
^       - Beginning of a String
$       - End of a String

[]      - Matches Characters in brackets
[^ ]    - Matches Characters NOT in brackets
|       - Either Or
( )     - Group

Quantifiers:
*       - 0 or More
+       - 1 or More
?       - 0 or One
{3}     - Exact Number
{3,4}   - Range of Numbers (Minimum, Maximum)


#### Sample Regexs ####

[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+
```

In [16]:
import re

text_to_search = '''
abcdefghijklmnopqurtuvwxyz
ABCDEFGHIJKLMNOPQRSTUVWXYZ
1234567890
Ha HaHa
MetaCharacters (Need to be escaped):
. ^ $ * + ? { } [ ] \ | ( )
coreyms.com
321-555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
8495-555-1234
8498-555-1234
8499-555-1234
Mr. Schafer
Mr Smith
Ms Davis
Mrs. Robinson
Mr. T
cat
bat
mat
dat
'''

sentence = 'Start a sentence and then bring it to an end'

# re.compile(r'start') - создает паттерн, по которому мы можем вести поиск в тексте, т.е. если у нас start
# то будет искать start в тексте. в определенном смысле это как поисковик
pattern = re.compile(r'\d')

matches = pattern.finditer(text_to_search)

for match in matches:
    print(match)
    #возвращает span - от начала до конца искомого слова, и само слово

<re.Match object; span=(55, 56), match='1'>
<re.Match object; span=(56, 57), match='2'>
<re.Match object; span=(57, 58), match='3'>
<re.Match object; span=(58, 59), match='4'>
<re.Match object; span=(59, 60), match='5'>
<re.Match object; span=(60, 61), match='6'>
<re.Match object; span=(61, 62), match='7'>
<re.Match object; span=(62, 63), match='8'>
<re.Match object; span=(63, 64), match='9'>
<re.Match object; span=(64, 65), match='0'>
<re.Match object; span=(151, 152), match='3'>
<re.Match object; span=(152, 153), match='2'>
<re.Match object; span=(153, 154), match='1'>
<re.Match object; span=(155, 156), match='5'>
<re.Match object; span=(156, 157), match='5'>
<re.Match object; span=(157, 158), match='5'>
<re.Match object; span=(159, 160), match='4'>
<re.Match object; span=(160, 161), match='3'>
<re.Match object; span=(161, 162), match='2'>
<re.Match object; span=(162, 163), match='1'>
<re.Match object; span=(164, 165), match='1'>
<re.Match object; span=(165, 166), match='2'>
<re.Matc

### Примеры использования regular expression

Для примера попробуем найти все телефонные номера. Простой их поиск нам ничего не даст, т.к. телефонные номера всегда разные, но при этом у них очень простая последовательность: 000-000-0000 (для российских номеров может быть либо 00-00-00, либо 000-000 или еще с кодом города +7(0000)00-00-00 и т.д.)

In [2]:
#\d\d\d - 3 цифры подряд, потом идет ".", который указывает на 
# любой знак 
pattern = re.compile('\d\d\d.\d\d\d.\d\d\d\d')
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)
# как мы видим, программа находит все номера телефонов.

<re.Match object; span=(151, 163), match='321-555-4321'>
<re.Match object; span=(164, 176), match='123.555.1234'>
<re.Match object; span=(177, 189), match='123*555*1234'>
<re.Match object; span=(190, 202), match='800-555-1234'>
<re.Match object; span=(203, 215), match='900-555-1234'>


In [7]:
#\d\d\d --- 3 цифры подряд, потом идет "[-.]", который означает
# либо "-" либо "."
pattern = re.compile(r'\d\d\d[-.]\d\d\d[-.]\d\d\d\d')
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)
# как мы видим, программа находит только те номера телефонов, которые.
# разделены при помощи "-" или "."

<re.Match object; span=(151, 163), match='321-555-4321'>
<re.Match object; span=(164, 176), match='123.555.1234'>
<re.Match object; span=(190, 202), match='800-555-1234'>
<re.Match object; span=(203, 215), match='900-555-1234'>


In [13]:
# Допустим, теперь, мы ищем конкретно московские номера
# как мы знаем московские номера начинаются с 495, 498 и 499

pattern = re.compile(r'849[589][-.]\d\d\d[-.]\d\d\d\d')
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)

<re.Match object; span=(216, 229), match='8495-555-1234'>
<re.Match object; span=(230, 243), match='8498-555-1234'>
<re.Match object; span=(244, 257), match='8499-555-1234'>


In [14]:
# теперь рассмотрим -. Его можно использовать для того, чтобы
# задать интервал. К примеру 0-9, означает от 0 до 9, или a-z, все
# буквы от a до z
pattern = re.compile(r'[0-3a-zA-Z]')
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)
#  как видим выводит буквы с a до z, как большие так и маленькие
#  и цифры от 0 до 3

<re.Match object; span=(1, 2), match='a'>
<re.Match object; span=(2, 3), match='b'>
<re.Match object; span=(3, 4), match='c'>
<re.Match object; span=(4, 5), match='d'>
<re.Match object; span=(5, 6), match='e'>
<re.Match object; span=(6, 7), match='f'>
<re.Match object; span=(7, 8), match='g'>
<re.Match object; span=(8, 9), match='h'>
<re.Match object; span=(9, 10), match='i'>
<re.Match object; span=(10, 11), match='j'>
<re.Match object; span=(11, 12), match='k'>
<re.Match object; span=(12, 13), match='l'>
<re.Match object; span=(13, 14), match='m'>
<re.Match object; span=(14, 15), match='n'>
<re.Match object; span=(15, 16), match='o'>
<re.Match object; span=(16, 17), match='p'>
<re.Match object; span=(17, 18), match='q'>
<re.Match object; span=(18, 19), match='u'>
<re.Match object; span=(19, 20), match='r'>
<re.Match object; span=(20, 21), match='t'>
<re.Match object; span=(21, 22), match='u'>
<re.Match object; span=(22, 23), match='v'>
<re.Match object; span=(23, 24), match='w'>
<re.M

In [17]:
# ^ --- такой знак внутри [] означает исключение, или не
pattern = re.compile(r'[^b]at') # все 3-х буквенные заканчивающиеся at, кроме bat
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)

<re.Match object; span=(308, 311), match='cat'>
<re.Match object; span=(316, 319), match='mat'>
<re.Match object; span=(320, 323), match='dat'>


In [18]:
#pattern = re.compile('\d\d\d.\d\d\d.\d\d\d\d') изменим этот код
# любой знак 
pattern = re.compile('\d{3}.\d{3}.\d{4}') #работает точно так же
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)
# как мы видим, программа находит все номера телефонов.

<re.Match object; span=(151, 163), match='321-555-4321'>
<re.Match object; span=(164, 176), match='123.555.1234'>
<re.Match object; span=(177, 189), match='123*555*1234'>
<re.Match object; span=(190, 202), match='800-555-1234'>
<re.Match object; span=(203, 215), match='900-555-1234'>
<re.Match object; span=(217, 229), match='495-555-1234'>
<re.Match object; span=(231, 243), match='498-555-1234'>
<re.Match object; span=(245, 257), match='499-555-1234'>


In [26]:
# Mr. Schafer
# Mr Smith
# Ms Davis
# Mrs. Robinson
# Mr. T
# рассмотрим более сложный пример, попробуем прочитать фамилии

pattern = re.compile(r'Mr\.?\s[A-Z]\w*')
# мы ищем начало Mr. затем идет \.? --- точка (или нет)
# затем идет \s --- пробел, [A-Z] --- любая большая буква, т.к.
# фамилии начинаются с большой буквы
# \w --- сам по себе означает любую букву. "*" от 0 и больше. 
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)


<re.Match object; span=(258, 269), match='Mr. Schafer'>
<re.Match object; span=(270, 278), match='Mr Smith'>
<re.Match object; span=(302, 307), match='Mr. T'>


In [28]:
# приведенный выше пример не читает Ms и Mrs, для этого
# воспользуемся группировкой, которая задается при помощи ()
pattern = re.compile(r'(Mr|Ms|Mrs)\.?\s[A-Z]\w*')
matches = pattern.finditer(text_to_search)
for match in matches:
    print(match)
# как мы видим, выводит все фамилии

<re.Match object; span=(258, 269), match='Mr. Schafer'>
<re.Match object; span=(270, 278), match='Mr Smith'>
<re.Match object; span=(279, 287), match='Ms Davis'>
<re.Match object; span=(288, 301), match='Mrs. Robinson'>
<re.Match object; span=(302, 307), match='Mr. T'>


### Более сложные примеры

Начнем рассматривать более сложные пример. Рассмотрим чтение электронных адресов

In [33]:
emails = '''
CoreyMSchafer@gmail.com
corey.schafer@university.edu
corey-321-schafer@my-work.net
'''

pattern = re.compile(r'[a-zA-Z.0-9-]+@[a-zA-Z-]+\.(edu|com|net)')
matches = pattern.finditer(emails)
for match in matches:
    print(match)

<re.Match object; span=(1, 24), match='CoreyMSchafer@gmail.com'>
<re.Match object; span=(25, 53), match='corey.schafer@university.edu'>
<re.Match object; span=(54, 83), match='corey-321-schafer@my-work.net'>


In [48]:
urls = '''
https://www.google.com
http://coreyms.com
https://youtube.com
https://www.nasa.gov
'''
# если мы разделим наш паттер на группы
pattern = re.compile(r'https?://(www\.)?(\w+)(\.\w+)')
matches = pattern.finditer(urls)
# мы сможем выводить определенные группы
# следует помнить, однако, что группа 0 --- это полный текст = паттернуы
for match in matches:
    print(match.group(2))

www.
google
None
coreyms
None
youtube
www.
nasa


In [47]:
pattern = re.compile(r'https?://(www\.)?(\w+)(\.\w+)')
subbed_urls = pattern.sub(r'\2\3',urls)
print(subbed_urls)


google.com
coreyms.com
youtube.com
nasa.gov



### Другие методы для поиска паттернов

In [54]:
# до сих пор мы использовали pattern.finditer метод, который очень
# функциональный. т.к. возвращает еще и координаты найденного паттерна
pattern = re.compile(r'(Mr|Ms|Mrs)\.?\s[A-Z]\w*') 
# find all выводит только текстовые значения
# надо иметь в виду, что он возвращает группы, если они есть в паттерне
# если групп вообще нет, то тогда возвращает весь текст
matches = pattern.findall(text_to_search)
for match in matches:
    print(match)
    
pattern = re.compile(r'(Mr|Ms|Mrs)\.?\s([A-Z]\w*)') 
matches = pattern.findall(text_to_search)
for match in matches:
    print(match)
    
pattern = re.compile(r'\d{3}.\d{3}.\d{4}') 
matches = pattern.findall(text_to_search)
for match in matches:
    print(match)
        

Mr
Mr
Ms
Mrs
Mr
('Mr', 'Schafer')
('Mr', 'Smith')
('Ms', 'Davis')
('Mrs', 'Robinson')
('Mr', 'T')
321-555-4321
123.555.1234
123*555*1234
800-555-1234
900-555-1234
495-555-1234
498-555-1234
499-555-1234


Рассмотрим еще два метода, match и search. они работают довольно похоже, возвращают только 1 значение если нашли, и возвращают None если не нашли

In [60]:
# match ищет только вначале строки
pattern = re.compile(r'Start') 
matches = pattern.match(sentence)
print(matches)

<re.Match object; span=(0, 5), match='Start'>


In [61]:
#search ищет по всей строке
pattern = re.compile(r'sentence') 
matches = pattern.search(sentence)
print(matches)

<re.Match object; span=(8, 16), match='sentence'>


In [63]:
# рассмотрим флаги, re.I или re.IGNORECASE игнорирует регистр, 
# это очень удобно если мы не знаем пишется слово с большой буквы или
# с маленькой. Или все написано большими буквами
pattern = re.compile(r'start', re.I) 
matches = pattern.match(sentence)
print(matches)

<re.Match object; span=(0, 5), match='Start'>
