# Regex

<a href="https://docs.python.org/pt-br/3.8/howto/regex.html">Documentação</a>

In [2]:
# Importa biblioteca
import re

## Principais funções do re

compile() : cria uma expressão regular<br>
match()   : Determina se a RE combina com o início da string.<br>
search()  : Varre toda a string, procurando qualquer local onde esta RE tem correspondência.<br>
findall() : Encontra todas as substrings onde a RE corresponde, e as retorna como uma lista.<br>
finditer(): Encontra todas as substrings onde a RE corresponde, e as retorna como um iterador.<br>

match() e search() retornam *none* se não encontra o padrão; ou um objeto match com as informações (a substring, posição onde começa e termina e etc).

In [3]:
p = re.search("A", "LARISSA")
print(p)

<re.Match object; span=(1, 2), match='A'>


## Objeto match

### Atributos

group() : Retorna a string que corresponde com a RE<br>
start() : Retorna a posição inicial da string correspondente<br>
end() : Retorna a posição final da string correspondente<br>
span() : Retorna uma tupla contendo as posições (inicial, final) da string combinada<br>

In [4]:
print(f"Substring: '{p.group()}'; posição inicial: {p.start()}; posição final: {p.end()}") 

Substring: 'A'; posição inicial: 1; posição final: 2


## Padrões

[a-z] : qualquer letra minúscula

[a-zA-Z] : qualquer letra

\w : quaquer caracter alfa-numérico (equivale a [a-zA-Z0-9]

\+ : uma ou mais repetições

\* : repete o caracter anterior de 0 a n vezes.

^ : na frente de um caracter, funciona como um não lógico, ou seja, considera que o padrão é não apresentar tal caracter.

e muuuuitos outros mais...

## Exemplos

**Exemplo 1**

Função que busca um texto que tenha um "a" seguido de um ou mais "b's".

In [19]:
def verificaPadrao(texto):
    p = re.search('a[b]*', texto)
    if p:
        print(f"Substring: '{p.group()}'; posição inicial: {p.start()}; posição final: {p.end()}") 
    else:
        print("Não encontrou")
    return

verificaPadrao("abc")
verificaPadrao("nome")
verificaPadrao("abbbbc")

Substring: 'ab'; posição inicial: 0; posição final: 2
Não encontrou
Substring: 'abbbb'; posição inicial: 0; posição final: 5


**Exemplo 2** 

Usando findall()

In [11]:
result = re.findall('ab*', "abbc abc")
print(result)

['abb', 'ab']


**Exemplo 3**

Identificando um CPF

In [18]:
p = re.compile("([0-9]{2}[\.]?[0-9]{3}[\.]?[0-9]{3}[\/]?[0-9]{4}[-]?[0-9]{2})|([0-9]{3}[\.]?[0-9]{3}[\.]?[0-9]{3}[-]?[0-9]{2})")

print(p.match("123.465.789-00"))
print(p.match("123.465.78900"))
print(p.match("12346578900"))
print(p.match("aaa.aaa.aaa-45"))

<re.Match object; span=(0, 14), match='123.465.789-00'>
<re.Match object; span=(0, 13), match='123.465.78900'>
<re.Match object; span=(0, 11), match='12346578900'>
None


Esta solução valida estes formatos: 00000000000, 00000000000000, 000.000.000-00, 00.000.000/0000-00 e até 000000000-00 ou 00000000/0000-00, por exemplo. Os pontos e traços são opcionais em cada uma das posições.

- [0-9]{2} Faixa de caracteres: 0 a 9, quantidade: 2 caracteres;
- [0-9]{3} Faixa de caracteres: 0 a 9, quantidade: 3 caracteres;
- [0-9]{4} Faixa de caracteres: 0 a 9, quantidade: 4 caracteres;
- [\\\.]?Um ponto, opcional. Foi usado \ no ponto, pois ele sozinho é caractere especial;
- [-]? Um traço, opcional ;
- [\\\/]? Uma barra, opcional;
- (grupo1)|(grupo2) Se um dos grupos validar, a expressão é válida.

**Exemplo 4**

Verificar se uma string é uma data no formato "DD/MM/YYYY"

In [4]:
# Solução simples
p = re.compile("^(0?[1-9]|[12][0-9]|3[01])[\/\-](0?[1-9]|1[012])[\/\-]\d{4}$")
print(p.match("01/mar/2021"))
print(p.match("31-02-4500")) # Mas aceita "datas" como: 31/02/4500

None
<re.Match object; span=(0, 10), match='31-02-4500'>


In [27]:
# Solução mais robusta (também aceita dd-mm-yyyy)
p = re.compile("^([1-9]|0[1-9]|1[0-9]|2[0-9]|3[0-1])(\.|-|/)([1-9]|0[1-9]|1[0-2])(\.|-|/)([0-9][0-9]|19[0-9][0-9]|20[0-9][0-9])$")

print(p.match("31-02-4500"))
print(p.match("30/07/1921")) # dd/mm/yyyy
print(p.match("30-07-2021")) # dd-mm-yyyy
print(p.match("07-30-2021")) # mm-dd-yyyy não aceita

None
<re.Match object; span=(0, 10), match='30/07/1921'>
<re.Match object; span=(0, 10), match='30-07-2021'>
None
