# Regex

RegularExpression (regex) são padrões utilizados para identificar determinadas combinações ou cadeias de caracteres em uma string

Os colchetes [] são caracteres especiais que definem um range ou um grupo de caracteres, como [0-9], [a-z] ou [abc] por exemplo;

Já o * pega uma ou mais ocorrências do padrão definido anteriormente;

As chaves {} nos permitem definir uma quantidade específica de vezes que queremos que o padrão se repita ou um intervalo de possibilidades, como [abc]{5} por exemplo;

O \w pode ser qualquer número de zero a nove ou letra de "A" a "Z";

A barra | representa uma coisa ou outra como em @|$ por exemplo;

Os parênteses () capturam um grupo, e veremos sua importância mais adiante.

<img src="imagem_regex.png" width="70%" >

In [2]:
#Biblioteca de regex
import re

In [5]:
padrao = "[0-9][a-z][0-9]"
texto = "abc 1a3 123 ca3 fgz 12c"
pesquisa = re.search(padrao, texto)
print(pesquisa) #Parar retornar o index quando encontra o padrão
print(pesquisa.group()) #Para retornar o texto encontrado

<re.Match object; span=(4, 7), match='1a3'>
1a3


## Encontrando um padrão de 2 letras entre números. É representado pelo número entre chaves


In [7]:
padrao = "[0-9][a-z]{2}[0-9]"
texto = "123 1a3 abc a2b 1ab9"
pesquisa = re.search(padrao, texto)
print(pesquisa)
print(pesquisa.group())

<re.Match object; span=(16, 20), match='1ab9'>
1ab9


## Encontrando um padrão de email

In [9]:
padrao = "\w{5,50}@\w{3,10}.\w{2,5}.\w{2,3}"
texto = "123abcd adfslf gabriel@hotmail.com 1a09@fjbiso"
pesquisa = re.search(padrao, texto)
print(pesquisa)
print(pesquisa.group())

<re.Match object; span=(15, 38), match='gabriel@hotmail.com 1a0'>
gabriel@hotmail.com 1a0


### Procura menos generalizada

In [13]:
padrao = "\w{5,50}@[a-z]{3,10}.com.br"
texto = "123abcd adfslf gabriel@hotmail.com.br 1a09@fjbiso"
pesquisa = re.search(padrao, texto)
print(pesquisa)
print(pesquisa.group())

<re.Match object; span=(15, 37), match='gabriel@hotmail.com.br'>
gabriel@hotmail.com.br


## Definindo padrão para telefones

In [15]:
#molde = (xx)xxxxx-xxxx
padrao = "[0-9]{2}[0-9]{4,5}[0-9]{4}"
texto = "Meu telefone é 31912345321"
pesquisa = re.search(padrao, texto)
print(pesquisa)
print(pesquisa.group())

#Ou pode usar o .findall() para retornar todas as ocorrências
#pesquisa.findall(padrao, texto)

<re.Match object; span=(15, 26), match='31912345321'>
31912345321


## Criando um padrão mais específico utilizando ()

O ponto de interrogação(?) demonstra o que padrão antes do ponto de interrogação não é obrigatório.

In [20]:
#molde = xx(xx)xxxxx-xxxx
padrao = "([0-9]{2,3})?([0-9]{3})([0-9]{4,5})([0-9]{4})"
texto = "Meu telefone é 31912345321"
pesquisa = re.search(padrao, texto)
print(pesquisa)
print(pesquisa.group())

<re.Match object; span=(15, 26), match='31912345321'>
31912345321
