# Regular Expressions (Regex) - Python

#### Documentation : https://docs.python.org/3/howto/regex.html

## Importando a biblioteca:

In [2]:
import re

## Caracteres:

In [8]:
# . - Entende qualquer valor exceto uma nova linha
# \. - Para buscar o caracter "."
texto = 'arara'
t = re.compile(r'a...a')
check = t.findall(texto)
print(check)

['arara']


In [28]:
# ^ - Irá testar o início da string
# [^] -Irá considerar todos os caracteres EXCETO o indicado
texto = 'arara'
t = re.compile(r'[^a]')
q = re.compile(r'^a')
check = t.findall(texto)
check1= q.findall(texto)
print(check,'\n',check1)

['r', 'r'] 
 ['a']


In [3]:
# \d - Qualquer caracter que SEJA um algarismo  de 0 a 9
# \D - Qualquer caracter que NÃO SEJA um algarismo de 0 a 9
texto = 'arara1992'
t = re.compile(r'\d')
q = re.compile(r'\D')
check = t.findall(texto)
check1= q.findall(texto)
print(check,'\n',check1)

['1', '9', '9', '2'] 
 ['a', 'r', 'a', 'r', 'a']


In [4]:
# \s - Qualquer caracter que SEJA vazio
# \S - Qualquer caracter que NÃO SEJA vazio
texto = '''

arara 1992

'''
t = re.compile(r'\s')
q = re.compile(r'\S')
check = t.findall(texto)
check1= q.findall(texto)
print(check,'\n',check1)

['\n', '\n', ' ', '\n', '\n'] 
 ['a', 'r', 'a', 'r', 'a', '1', '9', '9', '2']


In [43]:
# \w - Qualquer caracter que SEJA alfanumérico
# \W - Qualquer caracter que NÃO SEJA Alfanumérico
texto = '''

_arara@ 1992_

'''
t = re.compile(r'\w')
q = re.compile(r'\W')
check = t.findall(texto)
check1= q.findall(texto)
print(check,'\n',check1)

['_', 'a', 'r', 'a', 'r', 'a', '1', '9', '9', '2', '_'] 
 ['\n', '\n', '@', ' ', '\n', '\n']


### Métodos para checagem:

In [5]:
texto = 'arara'
t = re.compile(r'a')
check_findall = t.findall(texto)
check_match = t.match(texto)
check_search = t.search(texto)
check_finditer = t.finditer(texto)
print(check_findall)
print(check_match)
print(check_search)
print(check_finditer)

['a', 'a', 'a']
<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(0, 1), match='a'>
<callable_iterator object at 0x000001DFC16C9F10>


In [6]:
correspondencias = check_finditer
for correspondencia in correspondencias:
    print(correspondencia)

<re.Match object; span=(0, 1), match='a'>
<re.Match object; span=(2, 3), match='a'>
<re.Match object; span=(4, 5), match='a'>


## Estruturas

### [] Character set

In [7]:
texto = '''
Arara 1992
'''
t = re.compile(r'[a-zA-Z0-9]')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)



<re.Match object; span=(1, 2), match='A'>
<re.Match object; span=(2, 3), match='r'>
<re.Match object; span=(3, 4), match='a'>
<re.Match object; span=(4, 5), match='r'>
<re.Match object; span=(5, 6), match='a'>
<re.Match object; span=(7, 8), match='1'>
<re.Match object; span=(8, 9), match='9'>
<re.Match object; span=(9, 10), match='9'>
<re.Match object; span=(10, 11), match='2'>


In [8]:
texto = '''
Arara 1992
'''
t = re.compile(r'[a-zA-Z] [0-9]')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)


<re.Match object; span=(5, 8), match='a 1'>


In [9]:
texto = '''
Arara 1992
'''
t = re.compile(r'[a-zA-Z]+ [0-9]+')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)

<re.Match object; span=(1, 11), match='Arara 1992'>


### Quantificadores:

In [30]:
# * - 0 ou mais
texto = '''
Arara
'''
t = re.compile(r'[ra]*')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)

<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(1, 1), match=''>
<re.Match object; span=(2, 6), match='rara'>
<re.Match object; span=(6, 6), match=''>
<re.Match object; span=(7, 7), match=''>


In [31]:
# + - 1 ou mais
texto = '''
Arara
'''
t = re.compile(r'[ra]+')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)

<re.Match object; span=(2, 6), match='rara'>


In [32]:
# ? - 0 ou um
texto = '''
Arara
'''
t = re.compile(r'[ra]?')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)

<re.Match object; span=(0, 0), match=''>
<re.Match object; span=(1, 1), match=''>
<re.Match object; span=(2, 3), match='r'>
<re.Match object; span=(3, 4), match='a'>
<re.Match object; span=(4, 5), match='r'>
<re.Match object; span=(5, 6), match='a'>
<re.Match object; span=(6, 6), match=''>
<re.Match object; span=(7, 7), match=''>


In [41]:
#{3} - número exato de repetições
texto = '''
Arara
'''
t = re.compile(r'[ra]{2}')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)

<re.Match object; span=(2, 4), match='ra'>
<re.Match object; span=(4, 6), match='ra'>


In [38]:
#{3,4} - de 3 a 4 min e max
texto = '''
Arara
'''
t = re.compile(r'[ra]{2,4}')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)


<re.Match object; span=(2, 6), match='rara'>


### ()Grupos

In [26]:
texto = '''
Arara 1992
arara 1993
'''
t = re.compile(r'(A|a)?[a-z]{4} [0-9]+')
correspondencias = t.finditer(texto)
for correspondencia in correspondencias:
    print(correspondencia)
    print(correspondencia.group(0))
    print(correspondencia.group(1))

<re.Match object; span=(1, 11), match='Arara 1992'>
Arara 1992
A
<re.Match object; span=(12, 22), match='arara 1993'>
arara 1993
a


## Textos:

In [82]:
texto1 = '''
Sites diversos:
https://google.com/
https://www.gov.br/
https://www.kaiamba.com.br/
http://www.faetec.rj.gov.br/
'''
t = re.compile(r'https?://(www\.)?([a-zA-Z0-9]+\.)+(com.br|gov.br|com)')
correspondencias = t.finditer(texto1)
for correspondencia in correspondencias:
    print(correspondencia)
    print(correspondencia.group(1))
    print(correspondencia.group(2))
    print(correspondencia.group(3))



<callable_iterator object at 0x000001DFC3379D30>
<re.Match object; span=(17, 35), match='https://google.com'>
None
google.
com
<re.Match object; span=(37, 55), match='https://www.gov.br'>
None
www.
gov.br
<re.Match object; span=(57, 83), match='https://www.kaiamba.com.br'>
www.
kaiamba.
com.br
<re.Match object; span=(85, 112), match='http://www.faetec.rj.gov.br'>
www.
rj.
gov.br


In [87]:
emails = '''
Vários e-mails:
daniel@dominio.com
daniel.candiotto@dominio.com.br
DANIEL@dominio.br
DANIEL.CANDIOTTO@gov.br
danielcandiotto1@dominio1.co
daniel_candiotto_1@dominio-dominio.net
'''

In [101]:
t = re.compile(r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+')
correspondencias = t.finditer(emails)
for correspondencia in correspondencias:
    print(correspondencia)

    

<re.Match object; span=(17, 35), match='daniel@dominio.com'>
<re.Match object; span=(36, 67), match='daniel.candiotto@dominio.com.br'>
<re.Match object; span=(68, 85), match='DANIEL@dominio.br'>
<re.Match object; span=(86, 109), match='DANIEL.CANDIOTTO@gov.br'>
<re.Match object; span=(110, 138), match='danielcandiotto1@dominio1.co'>
<re.Match object; span=(139, 177), match='daniel_candiotto_1@dominio-dominio.net'>
