# re

Regular Expressions (`regex`) é uma linguagem específica de domínio (DSL) que funciona como biblioteca em diversas linguagens, como Python e R. É uma "mini linguagem de programação" com sintaxe específica.

DSL's são linguagens com um nível muito alto de abstração, e dentre elas também se inclui o `SQL`. No caso das `regex`, permitem identificar padrões recorrentes em strings e manipulá-los (localizar, substituir etc).

É uma boa prática localizar padrões em "raw strings", que tratam qualquer caractere dentro dela como caractere literal. Isso é útil ao lidar com metacaracteres (Ex.: \n) quando se deseja lê-los como strings normais. 

In [1]:
print(r"Raw String: Hello\nWorld!")
print("String normal: Hello\nWorld!")

Raw String: Hello\nWorld!
String normal: Hello
World!


Caracteres especiais de strings (úteis na hora de printar):
* \n: pula uma linha 
* \t: pula o valor de espaços de uma identação com "Tab"
* \s: espaço em branco

# Funções importantes

In [3]:
import re

* re.match(pat, str) -> Retorna True se o padrão é encontrado no começo da string.
* re.search(pat, str) -> Retorna True se o padrão é encontrado em qualquer pedaço da string.
* re.findall(pat, str) -> Retorna uma lista com todas as ocorrências do padrão.
* re.sub(pat, sub, str) -> Substitui todas as ocorrências do padrão na string pelo valor adicionado em "sub", e retorna a nova string. 

**Obs.:** pat = padrão, str = string

O objeto retornado pelas funções re.match() e re.search() é da classe `Match` e possui diversos métodos importantes, como: 

* group() -> ocorrência do padrão encontrado na string.
* start() -> posição do primeiro caractere do padrão encontrado dentro da string.
* end() -> posição do último caractere do padrão encontrado dentro da string.
* span() -> tupla com as posições do primeiro e último caractere do padrão encontrado dentro da string.

In [15]:
### EXEMPLO MATCH()
string = "abcdef123456"
match = re.match("abc", string) 

print("Objeto: ",match)

if match: # caso o objeto não seja vazio
    print("\nabc está no começo da string!")

match_2 = re.match("bcd", string)

if match_2:
    print("bcd está no começo da string")
else: 
    print("bcd não está no começo da string!")

print("\nString: ", string)
print("Match: ", match.group())
print("Início: ", match.start())
print("Fim: ", match.end())
print("Posições inicial e final: ", match.span())

Objeto:  <re.Match object; span=(0, 3), match='abc'>

abc está no começo da string!
bcd não está no começo da string!

String:  abcdef123456
Match:  abc
Início:  0
Fim:  3
Posições inicial e final:  (0, 3)


In [16]:
### EXEMPLO SEARCH()
string = "abcdef123456"
match = re.search("123", string) 

print("Objeto: ",match)

if match: # caso o objeto não seja vazio
    print("\nbcd está presente ao longo da string!")

print("\nString: ", string)
print("Match: ", match.group())
print("Início: ", match.start())
print("Fim: ", match.end())
print("Posições inicial e final: ", match.span())

Objeto:  <re.Match object; span=(6, 9), match='123'>
bcd está presente ao longo da string!

String:  abcdef123456
Match:  123
Início:  6
Fim:  9
Posições inicial e final:  (6, 9)


In [20]:
### EXEMPLO FINDALL()
string = "abcabcabc123456"
match = re.findall("abc", string) 

print("Objeto: ",match) # retorna uma lista com cada ocorrência do padrão

if match: # caso o objeto não seja vazio
    print("\nabc ocorre", len(match), "vezes ao longo da string!")

Objeto:  ['abc', 'abc', 'abc']

abc ocorre 3 vezes ao longo da string!


In [24]:
### EXEMPLO SUB()
string = "abcabcabc123456"
sub = "sub"
match = re.sub("abc", sub, string) 

print("String antiga: ",string) # recebe a string antiga
print("String nova: ",match) # retorna a nova string

if match: # caso o objeto não seja vazio
    print("\nabc está presente ao longo da string e foi trocado por sub!")

String antiga:  abcabcabc123456
String nova:  subsubsub123456

abc está presente ao longo da string e foi trocado por sub!


# Metacaracteres

São uma forma de definir um padrão que aborde determinado grupo distinto de ocorrências, de forma generalizada. 

### Tipos de metacaracteres: 
* \d <- representa todos os dígitos de 0 a 9
* \D <- não é dígito
* \s <- espaço em branco
* \S <- não é espaço em branco
* \w <- representa letras, dígitos e underscore
* . <- qualquer coisa exceto espaço em branco
* \ <- pula qualquer metacaractere (faz com que seja lido como caractere normal)

In [55]:
string = "123 abc 456 cde"

# Construção do Padrão:
digitos = "\d\d\d"
espaço = "\s"
quase_tudo = "\w\w\w" # [a-zA-z0-9_]
tudo = "..."
padrão = digitos + espaço + quase_tudo + espaço + tudo

match = re.search(padrão, string) 

if match: print("Padrão Localizado: ",match.group())
    
print("\nString: ", re.search(string, string).group())
print("Dígitos: ", re.search(digitos, string).group())
print("Espaços: ", re.search(espaço, string).group())
print("Quase-Tudo: ", re.search(quase_tudo, string).group())
print("Tudo: ", re.search(tudo, string).group())

Padrão Localizado:  123 abc 456

String:  123 abc 456 cde
Dígitos:  123
Espaços:   
Caracteres:  123
Tudo:  123


### CLASSES de caracteres 
* [] <- pelo menos um
* [^a] <- tudo menos a
* [a-z] <- range (inclui todas as strings dentro desse tipo do caractere, partindo do primeiro até o outro)

In [56]:
string = "123abcCDE321 "

# Construção do Padrão:
digitos = "[0-9][0-9][0-9]"
caracteres_minusculos = "[a-z][a-z][a-z]"
caracteres_maiusculos = "[A-Z][A-Z][A-Z]"
não_são_caracteres = "[^a-z][^a-z][^a-z]" 
padrão = digitos + caracteres_minusculos + caracteres_maiusculos + não_são_caracteres # concatena tudo

match = re.search(padrão, string)

if match: print("Padrão Localizado: ",match.group())
    
print("\nString: ", re.search(string, string).group())
print("Dígitos: ", re.search(digitos, string).group())
print("Caracteres Minúsculos: ", re.search(caracteres_minusculos, string).group())
print("Caracteres Maiúsculos: ", re.search(caracteres_maiusculos, string).group())
print("Não é Caractere: ", re.search(não_são_caracteres, string).group())

Padrão Localizado:  123abcCDE321

String:  123abcCDE321 
Dígitos:  123
Caracteres Minúsculos:  abc
Caracteres Maiúsculos:  CDE
Não é Caractere:  123


### ÂNCORAS 
Definir a posição dos caracteres em relação ao início e fim da string
* ^ <- começo da string analisada
* $ <- fim da string analisada

In [65]:
string_1 = "123"
string_2 = "1234"

# Construção do Padrão:
digitos = "[0-9][0-9][0-9]" 
padrão = "^" + digitos + "$"

match_1 = re.search(padrão, string_1)
match_2 = re.search(padrão, string_2)

if match_1: print("Padrão 1 Localizado: ", match_1.group())
    
if match_2: 
    print("Padrão 2 Localizado: ",match_2.group())
else:
    print("Padrão 2 Não Localizado")

Padrão 1 Localizado:  123
Padrão 2 Não Localizado


### QUANTIFICADORES 
Aparecem logo depois a um caractere de interesse

* `?` <- zero ou uma vez
* `*` <- zero ou mais vezes
* `+` <- um ou mais vezes
* {1} <- quantas vezes o tipo de caractere aparece
* {1,2} <- define quantas vezes esse tipo de caractere pode aparecer consecutivamente (entre uma ou duas no exemplo)

In [68]:
string = "123 abc 456 cde"

# Construção do Padrão:
digitos = "\d*" 
espaço = "\s{1}"
quase_tudo = "\w+" # [a-zA-z0-9_]
tudo = "...?"
padrão = digitos + espaço + quase_tudo + espaço + tudo

match = re.search(padrão, string) 

if match: print("Padrão Localizado: ",match.group())
    
print("\nString: ", re.search(string, string).group())
print("Dígitos: ", re.search(digitos, string).group())
print("Espaços: ", re.search(espaço, string).group())
print("Quase-Tudo: ", re.search(quase_tudo, string).group())
print("Tudo: ", re.search(tudo, string).group())

Padrão Localizado:  123 abc 456

String:  123 abc 456 cde
Dígitos:  123
Espaços:   
Quase-Tudo:  123
Tudo:  123


### GRUPOS 
Definem ordem de encontro dos caracteres, podemos nos referir a eles ao longo da regex.

* () <- criam grupos
* \\1 <- se refere ao primeiro grupo previamente declarado, ou seja, deve-se obter a MESMA substring localizada pelo primeiro grupo.
* | <- ou (somente em expressões regulares)

**Obs.:** O método groups() retorna uma tupla com todos os grupos encontrados. Entretanto, quando adicionamos quantificadores (onde pode ocorrer um ou mais eventos similares por exemplo), o método groups só retorna a primeira ocorrência daquele grupo.

In [91]:
padrão = r"a(bc)(d|e)+(f(g)h)i"
string = "abcdefghijklmnopqrstuvwxyz"
match = re.match(padrão, string)
if match:
    print(match.group())
    print(match.group(0))
    print(match.group(1))
    print(match.group(2))
    print(match.groups(), "-> Note que (d|e) pode ser repetido uma ou mais vezes, logo deveria ter sido printado um grupo para 'd' e outro para 'e'")

abcdefghi
abcdefghi
bc
e
('bc', 'e', 'fgh', 'g') -> Note que (d|e) pode ser repetido uma ou mais vezes, logo deveria ter sido printado um grupo para 'd' e outro para 'e'
