Principais caracteres especiais (meta-caracteres):
- Ponto `.`: Corresponde a qualquer caractere, menos o de
nova linha `\n`. Se a flag DOTALL for especificada, isso
corresponde a qualquer caractere que inclua uma nova
linha.
- Circunflexo `^`: Início da string. No modo MULTILINE
também coincide imediatamente após cada nova linha.
- Cifrão `$`: Fim da string.
- Contra-barra `\`: Caractere de escape, permite usar
caracteres especiais como se fossem comuns.
- Colchetes `[]`: Qualquer caractere dos listados entre
colchetes (range). Os caracteres podem ser listados
individualmente [abc], combinando `a`, `b` e `c`, ou
sequência como [a-z]. Para usar o `-` literalmente, temos
que usá-lo no início ou fim da expressão.
- Asterisco `*`: Zero ou mais ocorrências da expressão
anterior.
- Mais `+`: Uma ou mais ocorrências da expressão anterior
- Interrogação `?`: Zero ou uma ocorrência da expressão anterior.
- Chaves `{n}`: `N` ocorrências da expressão anterior.
- Barra vertical ou pipe `|`: ‘Ou’ lógico.
- Parênteses `()`: Delimitam um grupo de expressões.
- `\d`: Dígito. Equivale a [0-9].
- `\D`: Não dígito. Equivale a [^0-9].
- `\s`: Qualquer caractere de espaçamento `[ \t\n\r\f\v]`.
- `\S`: Qualquer caractere que não seja de espaçamento `[^\t\n\r\f\v]`.
- `\w`: Caractere alfanumérico ou sublinhado `[a-zA-Z0-9_]`.
- `\W`: Caractere que não seja alfanumérico ou sublinhado `[^a-zA-Z0-9_]`

In [1]:
import re
padrao = "."

# Modificando o texto para ser uma raw string
texto = r"\nEsta é uma aula de Python.\n Nesta aula vamos falar sobre expressões regulares.\n Espero que goste.\n"

resultado = re.search(padrao, texto, re.DOTALL)

print(f"{resultado.group()}")

# Se a flag DOTALL for especificada, isso corresponde a qualquer caractere que inclua uma nova linha.

\


## Veja algumas flags
`re.IGNORECASE (re.I)`: Não faz distinção entre maiúsculas e minúsculas.


`re.DOTALL (re.S)`: Faz com que o caractere especial “.” combine qualquer caractere, incluindo uma
nova linha, sem esta flag, o “.” irá combinar qualquer coisa, exceto uma nova linha.


`re.VERBOSE (re.X)`: Permite que você escreva expressões regulares mais agradáveis e que sejam
mais legíveis, permitindo que adicione comentários. O espaço em branco dentro do padrão é
ignorado, exceto quando está em uma classe de caracteres ou quando é precedido por uma barra
invertida (“\ ”). Quando uma linha contém um # que não está em uma classe de caracteres e não
esteja precedido de uma barra invertida (“\#”), ele próprio e todos caracteres até o final da linha
são ignorados.

In [2]:
import re
a = re.compile(r"""\d +  # Parte inteira
                    \.   # Ponto decimal
                    \d * # Alguns digitos fracionarios""", re.X)

## Ocorrência individual e múltiplas
`[0-9]` Qualquer número entre 0 e 9 (cada ocorrência individual).

`[0-9]+` Qualquer número entre 0 e 9 (várias ocorrências).

In [3]:
pattern_a = re.compile(r"[0-9]")
pattern_b = re.compile(r"[0-9]+")

text = "Olá temos 58 números 675 espalhados 47 nest texto 14. Mas tem negativos -7 e -48"

a = re.findall(pattern_a, text)
b = re.findall(pattern_b, text)
print(a)
print(b)

['5', '8', '6', '7', '5', '4', '7', '1', '4', '7', '4', '8']
['58', '675', '47', '14', '7', '48']


## Qualquer ocorrência
`(segunda|terça|quarta|quinta|sexta)-feira`

In [4]:
pattern = re.compile(r"(segunda|terça|quarta|quinta|sexta)-feira")

text = "Na segunda-feira eu não vou trabalhar Na terça-feira não vou pra poder descansar Na quarta preciso me recuperar Na quinta eu acordo meio-dia, não dá Na sexta viajo pra veranear No sábado vou pra mangueira sambar Domingo é descanso e eu não vou mesmo lá Mas todo fim de mês chego devagar Porque é pagamento eu não posso faltar"

print(re.findall(pattern, text))

['segunda', 'terça']


In [5]:
pattern = re.compile('ana')
text = "Ana adora ouvir chiclete com Banana, gosta de bananada e também banana, ela é irmã da Mariana."
print(re.findall(pattern, text))

pattern = re.compile('ana', re.I)  # re.I -> Ignore Case
print(re.findall(pattern, texto))

['ana', 'ana', 'ana', 'ana']
[]


## Usando `.`
Veja um exemplo, utilizando `.` no padrão:
`.ato` = `qualquer_caracter + ato`

In [6]:
padrao = re.compile(r".ato")
text = ("Eu tenho um gato que corre de ratos,"
        "foge para o mato, aí eu pego o sapato "
        "e bato ele no ato. Ele parece um ator, "
        "atormentado.")
resultado = re.findall(padrao, text)
print(resultado)

['gato', 'rato', 'mato', 'pato', 'bato', ' ato', ' ato', ' ato']


## Função `re.search()`
`re.search(pattern, string, flags=0)`: Procura a ocorrência do pattern (padrão) dentro da string e retorna um objeto que corresponda a este padrão (match object).

**pattern**: padrão, ou expressão regular avaliada.

**string**: texto em que será feita a pesquisa.

**Flags**: `re.IGNORECASE (re.I)`, `re.LOCALE (re.L)`, `re.MULTILINE (re.M)`, `re.DOTALL (re.S)`, `re.UNICODE (re.U)`, `re.VERBOSE (re.X)`.

**Retorna**: `re.MatchObject` ou `None`

---
## Função `re.match()`
`re.match(pattern, string, flags=0)`: Procura a ocorrência do pattern **no início da string**. 
> Se o pattern casar o início da string, a função retorna o re.MatchObject correspondente, senão, retorna `None`.

**pattern**: padrão, ou expressão regular avaliada.

**Flags**: `re.IGNORECASE (re.I)`, `re.LOCALE (re.L)`, `re.MULTILINE (re.M)`, `re.DOTALL (re.S)`, `re.UNICODE (re.U)`, `re.VERBOSE (re.X)`.

**Retorna**: `re.MatchObject` ou `None`

In [7]:
padrao = re.compile(r".ato")

texto = ("Eu tenho um Gato que corre de RATO,"
        "foge para o MATO, aí eu pego o sapato "
        "e bato ele no ato.")

resultado = re.search(padrao, texto)
print(resultado)

resultado = re.match(padrao, texto)
print(resultado)

texto = ("Gato que corre de RATO,"
        "foge para o MATO, aí eu pego o sapato "
        "e bato ele no ato.")

resultado = re.match(padrao, texto)
print(resultado)

<re.Match object; span=(12, 16), match='Gato'>
None
<re.Match object; span=(0, 4), match='Gato'>


Veja que na segunda execução retornou None, porque não foi
encontrada uma string que correspondesse ao padrão informado logo
no início do texto.
Já na terceira execução, foi encontrada.


## Exemplo: Localizando CPFs/CNPJs em um texto

- CNPJ: `([0-9]{2}[\.]?[0-9]{3}[\.]?[0-9]{3}[\/]?[0-9]{4}[-]?[0-9]{2})`  
- CPF: `([0-9]{3}[\.]?[0-9]{3}[\.]?[0-9]{3}[-]?[0-9]{2})`

#### Legenda
- `[0-9]{2}` = Faixa de caracteres: 0 a 9, quantidade: 2 caracteres;
- `[0-9]{3}` = Faixa de caracteres: 0 a 9, quantidade: 3 caracteres;
- `[0-9]{4}` = Faixa de caracteres: 0 a 9, quantidade: 4 caracteres;
- `[\.]?` = Um ponto, opcional. Foi usado \ no ponto, pois ele sozinho é caractere especial;
- `[-]?` = Um traço, opcional (se acrescentar outros caracteres, comece pelo - sempre);
- `[\/]?` = Uma barra, opcional. Tambem "escapada" com \;
- (grupo1)|(grupo2) Usando o OU lógico. Se um dos grupos validar, a expressão é válida

In [8]:
import re
import pprint

padrao = re.compile(r"([0-9]{2}[\.]?[0-9]{3}[\.]?[0-9]{3}[/]?[0-9]{4}[-]?[0-9]{2})|([0-9]{3}[\.]?[0-9]{3}[\.]?[0-9]{3}[-]?[0-9]{2})")
# Duas formas iguasis
#padrao = re.compile("([0-9]{2}\.?[0-9]{3}\.?[0-9]{3}[/]?[0-9]{4}[-]?[0-9]{2})|([0-9]{3}\.?[0-9]{3}\.?[0-9]{3}[-]?[0-9]{2})")
#padrao = re.compile("([0-9]{2}.?[0-9]{3}.?[0-9]{3}[/]?[0-9]{4}[-]?[0-9]{2})|([0-9]{3}.?[0-9]{3}.?[0-9]{3}[-]?[0-9]{2})")

# CNPJ: ([0-9]{2}[\.]?[0-9]{3}[\.]?[0-9]{3}[\/]?[0-9]{4}[-]?[0-9]{2})
# CPF: ([0-9]{3}[\.]?[0-9]{3}[\.]?[0-9]{3}[-]?[0-9]{2})

# Texto retirado do documento concurso_novo129066_a87211e5a81747267b10c00f8d836a44.pdf
# com o resultado de um concurso que pode ser localizado na internet de forma pública
texto = (r"""Nº INSC. CANDIDATO CARGO C P F
RELAÇÃO DE CANDIDATOS - CONCURSO PÚBLICO
42 FABIANO FINGER SANTOS ODONTOLÓGO 00045847916 !!! SEM PONTUAÇÃO
35 FERNANDA REGINA LOTTI ODONTOLÓGO 12.345.444/7777-85 !!!!FORMATO CNPJ
70 FRANCIANE GOMES ODONTOLÓGO 049.105.969-84
68 LUIZ EDUARDO CORREA RODRIGUEZ ODONTOLÓGO 530.428.919-68
67 LUIZ FELIPE SANTOS PEREIRA ODONTOLÓGO 06318824995 !!!!!CPF SEM MÁSCARA
44 LUIZ OMAR WEILLER ODONTOLÓGO 828.400.590-53
31 MARCOS VINICIUS PARISOTTO ODONTOLÓGO 064.390.099-31
71 MARCUS PALMA NUNES ODONTOLÓGO 042.393.449-05
XX FULANO DE TAL 12.345.678/0001-85 !!!!!UM CNPJ
""")

resultado = re.findall(padrao, texto)
pprint.pprint(resultado)

[('', '00045847916'),
 ('12.345.444/7777-85', ''),
 ('', '049.105.969-84'),
 ('', '530.428.919-68'),
 ('', '06318824995'),
 ('', '828.400.590-53'),
 ('', '064.390.099-31'),
 ('', '042.393.449-05'),
 ('12.345.678/0001-85', '')]


## Exemplo: Localizando Emails

Email: `[\w.-]+@[\w.-]+`

- `\w` : Caractere alfanumérico ou sublinhado `[a-zA-Z0-9_]`
- `.` : Considera o `.`. Devido ao ponto, foi encontrado `evaldo.wolkers@algumacoisa.com.br`, se não permitisse o ponto, seria retornado `wolkers@algumacoisa.com.br`.
- `-` : Considera o `-`. Devido ao hífen, foi encontrado `evaldo-wolkers@algo.com.br`, se não permitisse o ponto, seria retornado `wolkers@algo.com.br`.
- `+` : Uma ou mais ocorrências da expressão anterior `[\w.-]`
- `@` : Considera um caractere arroba.

In [11]:
padrao = r'[\w.-]+@[\w.-]+'
texto = r"Meu principal e-mail é evaldowolkers@gmail.com, mas tenho também o evaldorw@hotmail.com, e o que dizer do evaldo.wolkers@algumacoisa.com.br? Este eu ainda não tenho. Que tal também o evaldo-wolkers@algo.com.br?"

match = re.findall(padrao, texto)

print(match)

['evaldowolkers@gmail.com', 'evaldorw@hotmail.com', 'evaldo.wolkers@algumacoisa.com.br', 'evaldo-wolkers@algo.com.br']


In [12]:
import re

texto = "Meu principal e-mail é evaldowolkers@gmail.com, mas tenho também o evaldorw@hotmail.com, e o que dizer do evaldo.wolkers@algumacoisa.com.br? Este eu ainda não tenho. Que tal também o evaldo-wolkers@algo.com.br? .@.  ...@..."

# Encontrando um conjunto de caracteres (a-zA-z0-9), seguido de arroba e outro conjunto de caracteres
match = re.findall(r'[\w]+@[\w]+', texto)
print(match)
#['evaldowolkers@gmail', 'evaldorw@hotmail', 'wolkers@algumacoisa', 'wolkers@algo']

# Encontrando pontos, arroba e pontos, literalmente (várias ocorrências de ponto)
match = re.findall(r'[\.]+@[\.]+', texto)
print(match)
# ['.@.', '...@...']

# Encontrando qualquer caracter (ponto como coringa), várias ocorrências, seguido de arroba e qualquer caracter, várias ocorrências
match = re.findall('.+@.+', texto)
print(match)
#['Meu principal e-mail é evaldowolkers@gmail.com, mas tenho também o evaldorw@hotmail.com, e o que dizer do evaldo.wolkers@algumacoisa.com.br? Este eu ainda não tenho. Que tal também o evaldo-wolkers@algo.com.br? .@.  ...@...']

# Encontrando qualquer caracter (ponto como coringa), várias ocorrências, seguido de arroba e qualquer caracter, várias ocorrências
match = re.findall('.@.', texto)
print(match)
#['s@g', 'w@h', 's@a', 's@a', '.@.', '.@.']

# Encontrando arrobas e pontos, caracteres informados entre chaves
match = re.findall('[.@.]', texto)
print(match)
#['@', '.', '@', '.', '.', '@', '.', '.', '.', '@', '.', '.', '.', '@', '.', '.', '.', '.', '@', '.', '.', '.']



['evaldowolkers@gmail', 'evaldorw@hotmail', 'wolkers@algumacoisa', 'wolkers@algo']
['.@.', '...@...']
['Meu principal e-mail é evaldowolkers@gmail.com, mas tenho também o evaldorw@hotmail.com, e o que dizer do evaldo.wolkers@algumacoisa.com.br? Este eu ainda não tenho. Que tal também o evaldo-wolkers@algo.com.br? .@.  ...@...']
['s@g', 'w@h', 's@a', 's@a', '.@.', '.@.']
['@', '.', '@', '.', '.', '@', '.', '.', '.', '@', '.', '.', '.', '@', '.', '.', '.', '.', '@', '.', '.', '.']


## Exemplo: Localizando Datas
Data: `\d{2}/\d{2}/\d{4}`

In [13]:
padrao = re.compile(r"\d{2}/\d{2}/\d{4}")
texto = "Hoje é dia 26/09/2017, a data para entrega do produto era 10/09/2017, estamos com 16 dias em atraso."
print(re.findall(padrao, texto))


['26/09/2017', '10/09/2017']
