# REGULAR EXPRESSIONS (REGEX).

***A regular expression is a special sequence of characters that helps you match or find other strings or sets of strings, using a specialized syntax held in a pattern.***


In [18]:
import re
string = 'This is a text of regular expressions, text'
print(re.search(r'text', string))
print(re.findall(r'text', string))
print(re.sub(r'Text','Something' ,string, count=1))

<re.Match object; span=(10, 14), match='text'>
['text', 'text']
This is a text of regular expressions, text


In [25]:
regexp = re.compile(r'text')
print(regexp.search(string))
print(regexp.findall(string))
print(regexp.sub('DEF',string))

<re.Match object; span=(10, 14), match='text'>
['text', 'text']
This is a DEF of regular expressions, DEF


# META CHARACTERS
- (*) 0 or n
- (+) 1 or n
- (?) 0 or 1
- {n}
- {min, max}
- {10,} ten or more
- {,10} zero to ten
- {10} Specifically ten
- {5,10} five to ten


In [17]:
import re

text = '''
João trouxe flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de joão. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Joooooooooãooooooo, o café tá prontinho aqui. Veeemm veeem veem vem"!
Jã
'''


In [3]:
print(re.findall(r'jo+ão+', text, flags=re.I))

['João', 'joão', 'Joooooooooãooooooo']


In [5]:
print(re.sub(r'jo+ão+','Felipe', text, flags=re.I))


Felipe trouxe flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de Felipe. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Felipe, o café tá prontinho aqui. Veeemm"!
Jã



In [7]:
print(re.sub(r'jo*ão*','Felipe', text, flags=re.I))



Felipe trouxe flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de Felipe. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Felipe, o café tá prontinho aqui. Veeemm"!
Felipe



In [9]:
print(re.sub(r'jo?ão*','Felipe', text, flags=re.I))


Felipe trouxe flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de Felipe. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.
Não canso de ouvir a Maria:
"Joooooooooãooooooo, o café tá prontinho aqui. Veeemm"!
Felipe



In [20]:
print(re.findall(r'j[a-zA-Z]+ão+', text, flags=re.I))
print(re.findall(r'jo{1,}ão{1,}', text, flags=re.I))
print(re.findall(r've{3}m{1,2}', text, flags=re.I))

['João', 'joão', 'Joooooooooãooooooo']
['João', 'joão', 'Joooooooooãooooooo']
['Veeemm', 'veeem']


In [51]:
text2 = 'João ama ser amado'

In [53]:
print(re.findall(r'ama[do]{0,2}', text2, flags=re.I))

['ama', 'amado']


# GRUPOS E RETROVISORES
- ()

In [3]:
# Meta caracteres:  ^ $
# ( )

import re
from pprint import pprint

text = '''
<p>text 1</p> <p>Whatever</p> <p>Eita</p> <div></div>
'''

In [170]:
tags = re.findall(r'(<([pdiv]{1,3})>(.*?)</\2>)', text)
pprint(tags)
# for tag in tags:
#     one, two, three = tag
#     print(three)

[('<p>text 1</p>', 'p', 'text 1'),
 ('<p>Whatever</p>', 'p', 'Whatever'),
 ('<p>Eita</p>', 'p', 'Eita'),
 ('<div></div>', 'div', '')]


In [79]:
tags = re.findall(r'<([pdiv]{1,3})>(?:.*?)</\1>', text)
pprint(tags)

['p', 'p', 'p', 'div']


In [80]:
cpf = '435.756.098-34'
print(re.findall(r'((?:[0-9]{3}.){2}[0-9]{3}-[0-9]{2})', cpf))

['435.756.098-34']


In [102]:
tags = re.findall(r'<(?P<tag>[pdiv]{1,3})>(.*?)</(?P=tag)>', text)
pprint(tags)

[('p', 'text 1'), ('p', 'Whatever'), ('p', 'Eita'), ('div', '')]


In [109]:
print(re.sub(r'(<(.?)>)(.+?)(</\2>)', r'\1 mais"\3"coisa \4', text))


<p> mais"text 1"coisa </p> <p> mais"Whatever"coisa </p> <p> mais"Eita"coisa </p> <div></div>



In [118]:
print(re.sub(r'(<(.?)>)(.+?)(</\2>)', r'\1\4', text))


<p></p> <p></p> <p></p> <div></div>



# $ AND ^

- (^) -> Star with.
- ($) -> End with.
- [^a-z] -> Negacão/ Qualquer coisa que não seja entre A a Z.

In [169]:
text3 = 'Eu sou o vinicius e tenho 18 anos, nascido em 2003'
cpf = ' 435.756.098-34'
print(re.findall(r'^((?:[0-9]{3}.){2}[0-9]{3}-[0-9]{2})$', cpf))
print(re.findall(r'[^a-z]+', cpf))
print(re.findall(r'[0-9]+', text3))

[]
[' 435.756.098-34']
['18', '2003']


# LOOK AROUND

In [192]:
texto = '''
ONLINE  192.168.0.1 GHIJK active
OFFLINE  192.168.0.2 GHIJK inactive
OFFLINE  192.168.0.3 GHIJK active
ONLINE  192.168.0.4 GHIJK active
ONLINE  192.168.0.5 GHIJK inactive
OFFLINE  192.168.0.6 GHIJK active
'''
pprint(re.findall(r'\w+\s+(\d+\.\d+\.\d+\.\d+)\s+\w+\s+(\w+)', texto))


[('192.168.0.1', 'active'),
 ('192.168.0.2', 'inactive'),
 ('192.168.0.3', 'active'),
 ('192.168.0.4', 'active'),
 ('192.168.0.5', 'inactive'),
 ('192.168.0.6', 'active')]


In [185]:
# Positive Lookahead
print(re.findall(r'\w+\s+(\d+\.\d+\.\d+\.\d+)\s+\w+\s+(?=active)', texto))

['192.168.0.1', '192.168.0.3', '192.168.0.4', '192.168.0.6']


In [189]:
# Negative Lookahead
print(re.findall(r'\w+\s+(\d+\.\d+\.\d+\.\d+)\s+\w+\s+(?!active)', texto))

['192.168.0.2', '192.168.0.5']


In [199]:
# Positive Lookahead
pprint(re.findall(r'(?=.*[^in]active).*', texto))

['ONLINE  192.168.0.1 GHIJK active',
 'OFFLINE  192.168.0.3 GHIJK active',
 'ONLINE  192.168.0.4 GHIJK active',
 'OFFLINE  192.168.0.6 GHIJK active']


In [210]:
# Positive Lookbehind
pprint(re.findall(r'\w+(?<=ONLINE)\s+(\d+\.\d+\.\d+\.\d+)\s+\w+\s+\w+', texto))

['192.168.0.1', '192.168.0.4', '192.168.0.5']


In [212]:
# Negative Lookbehind
pprint(re.findall(r'\w+(?<!ONLINE)\s+(\d+\.\d+\.\d+\.\d+)\s+\w+\s+\w+', texto))

['192.168.0.2', '192.168.0.3', '192.168.0.6']


In [215]:
pprint(re.findall(r'\w+(?<=ONLINE)\s+\d+\.\d+\.\d+\.\d+\s+\w+\s+\w+', texto))

['ONLINE  192.168.0.1 GHIJK active',
 'ONLINE  192.168.0.4 GHIJK active',
 'ONLINE  192.168.0.5 GHIJK inactive']


# Validação de IP

In [221]:
ip_reg_exp = re.compile(r'''
    ^
    (?:
        (?:
        25[0-5]| # 250-255
        2[0-4]\d|# 200-249
        1[0-9]{2}| # 100-199
        [1-9][0-9]| # 10-99
        [0-9]
        )
        \.
    )
    {3}
      (?:
        25[0-5]| # 250-255
        2[0-4]\d|# 200-249
        1[0-9]{2}| # 100-199
        [1-9][0-9]| # 10-99
        [0-9]
        )
        $
''', re.X)

for i in range(301):
    ip = f'{i}.{i}.{i}.{i}'
    print(ip, ip_reg_exp.findall(ip))

0.0.0.0 ['0.0.0.0']
1.1.1.1 ['1.1.1.1']
2.2.2.2 ['2.2.2.2']
3.3.3.3 ['3.3.3.3']
4.4.4.4 ['4.4.4.4']
5.5.5.5 ['5.5.5.5']
6.6.6.6 ['6.6.6.6']
7.7.7.7 ['7.7.7.7']
8.8.8.8 ['8.8.8.8']
9.9.9.9 ['9.9.9.9']
10.10.10.10 ['10.10.10.10']
11.11.11.11 ['11.11.11.11']
12.12.12.12 ['12.12.12.12']
13.13.13.13 ['13.13.13.13']
14.14.14.14 ['14.14.14.14']
15.15.15.15 ['15.15.15.15']
16.16.16.16 ['16.16.16.16']
17.17.17.17 ['17.17.17.17']
18.18.18.18 ['18.18.18.18']
19.19.19.19 ['19.19.19.19']
20.20.20.20 ['20.20.20.20']
21.21.21.21 ['21.21.21.21']
22.22.22.22 ['22.22.22.22']
23.23.23.23 ['23.23.23.23']
24.24.24.24 ['24.24.24.24']
25.25.25.25 ['25.25.25.25']
26.26.26.26 ['26.26.26.26']
27.27.27.27 ['27.27.27.27']
28.28.28.28 ['28.28.28.28']
29.29.29.29 ['29.29.29.29']
30.30.30.30 ['30.30.30.30']
31.31.31.31 ['31.31.31.31']
32.32.32.32 ['32.32.32.32']
33.33.33.33 ['33.33.33.33']
34.34.34.34 ['34.34.34.34']
35.35.35.35 ['35.35.35.35']
36.36.36.36 ['36.36.36.36']
37.37.37.37 ['37.37.37.37']
38.38.38.38 ['38

In [1]:
ip_reg_exp = re.compile(r'''
    ^
    (?:
        (?:
        25[0-5]| # 250-255
        2[0-4]\d|# 200-249
        1[0-9]{2}| # 100-199
        [1-9][0-9]| # 10-99
        [0-9]
        )
        \.?
    ){4}
    \b
    $
''', re.X)

for i in range(301):
    ip = f'{i}.{i}.{i}.{i}'
    print(ip, ip_reg_exp.findall(ip))

NameError: name 're' is not defined

In [4]:
ip_reg_exp = re.compile(r'^(?:(?:25[0-5]|2[0-4]\d|1[0-9]{2}|[1-9][0-9]|[0-9])\.?){4}\b$')

for i in range(301):
    ip = f'{i}.{i}.{i}.{i}'
    print(ip, ip_reg_exp.findall(ip))

0.0.0.0 ['0.0.0.0']
1.1.1.1 ['1.1.1.1']
2.2.2.2 ['2.2.2.2']
3.3.3.3 ['3.3.3.3']
4.4.4.4 ['4.4.4.4']
5.5.5.5 ['5.5.5.5']
6.6.6.6 ['6.6.6.6']
7.7.7.7 ['7.7.7.7']
8.8.8.8 ['8.8.8.8']
9.9.9.9 ['9.9.9.9']
10.10.10.10 ['10.10.10.10']
11.11.11.11 ['11.11.11.11']
12.12.12.12 ['12.12.12.12']
13.13.13.13 ['13.13.13.13']
14.14.14.14 ['14.14.14.14']
15.15.15.15 ['15.15.15.15']
16.16.16.16 ['16.16.16.16']
17.17.17.17 ['17.17.17.17']
18.18.18.18 ['18.18.18.18']
19.19.19.19 ['19.19.19.19']
20.20.20.20 ['20.20.20.20']
21.21.21.21 ['21.21.21.21']
22.22.22.22 ['22.22.22.22']
23.23.23.23 ['23.23.23.23']
24.24.24.24 ['24.24.24.24']
25.25.25.25 ['25.25.25.25']
26.26.26.26 ['26.26.26.26']
27.27.27.27 ['27.27.27.27']
28.28.28.28 ['28.28.28.28']
29.29.29.29 ['29.29.29.29']
30.30.30.30 ['30.30.30.30']
31.31.31.31 ['31.31.31.31']
32.32.32.32 ['32.32.32.32']
33.33.33.33 ['33.33.33.33']
34.34.34.34 ['34.34.34.34']
35.35.35.35 ['35.35.35.35']
36.36.36.36 ['36.36.36.36']
37.37.37.37 ['37.37.37.37']
38.38.38.38 ['38

037.368.083-97
384.638.311-61
614.731.163-75
537.517.810-78
729.300.807-66
971.877.957-54
041.591.464-53
127.827.970-84
841.744.503-07
791.611.710-99
