<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Expressões-Regulares" data-toc-modified-id="Expressões-Regulares-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Expressões Regulares</a></span><ul class="toc-item"><li><span><a href="#Método-search" data-toc-modified-id="Método-search-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Método <code>search</code></a></span></li><li><span><a href="#Objetos-do-tipo-match" data-toc-modified-id="Objetos-do-tipo-match-1.2"><span class="toc-item-num">1.2&nbsp;&nbsp;</span>Objetos do tipo <code>match</code></a></span></li><li><span><a href="#Outras-Funções-da-biblioteca-RE" data-toc-modified-id="Outras-Funções-da-biblioteca-RE-1.3"><span class="toc-item-num">1.3&nbsp;&nbsp;</span>Outras Funções da biblioteca RE</a></span></li></ul></li><li><span><a href="#Compilando-REs" data-toc-modified-id="Compilando-REs-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Compilando REs</a></span></li><li><span><a href="#Regras-básicas-para-escrita-de-uma-RE" data-toc-modified-id="Regras-básicas-para-escrita-de-uma-RE-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Regras básicas para escrita de uma RE</a></span><ul class="toc-item"><li><span><a href="#Backslash" data-toc-modified-id="Backslash-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Backslash</a></span></li><li><span><a href="#Repetições" data-toc-modified-id="Repetições-3.2"><span class="toc-item-num">3.2&nbsp;&nbsp;</span>Repetições</a></span></li><li><span><a href="#Classe-de-caracteres" data-toc-modified-id="Classe-de-caracteres-3.3"><span class="toc-item-num">3.3&nbsp;&nbsp;</span>Classe de caracteres</a></span></li><li><span><a href="#Opcional" data-toc-modified-id="Opcional-3.4"><span class="toc-item-num">3.4&nbsp;&nbsp;</span>Opcional</a></span></li><li><span><a href="#Outros-Meta-Caracteres" data-toc-modified-id="Outros-Meta-Caracteres-3.5"><span class="toc-item-num">3.5&nbsp;&nbsp;</span>Outros Meta-Caracteres</a></span></li></ul></li><li><span><a href="#Exemplo---Buscando-um-email" data-toc-modified-id="Exemplo---Buscando-um-email-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Exemplo - Buscando um email</a></span></li><li><span><a href="#Exercícios" data-toc-modified-id="Exercícios-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Exercícios</a></span></li><li><span><a href="#Referência" data-toc-modified-id="Referência-6"><span class="toc-item-num">6&nbsp;&nbsp;</span>Referência</a></span></li></ul></div>

# Expressões Regulares

Expressões regulares são formas concisas de descrever um conjunto de strings que satisfazem um determinado padrão. Por exemplo, podemos criar uma expressão regular para descrever todas as strings na forma dd/dd/dddd, um padrão que representa datas, onde d é um dígito qualquer.

Dada uma expressão regular podemos resolver por exemplo este problema:

- Existe uma sequência de caracteres numa string de entrada que pode ser interpretada como um número de telefone? E qual é ele?

Note que números de telefones podem vir em vários “formatos”. Exemplos:
  - 19-91234-5678
  - (019) 91234 5678
  - (19)912345678
  - 91234-5678

Expressões regulares são uma mini-linguagem que permite especificar as regras de construção de um conjunto de strings.
Essa mini-linguagem de especificação é muito parecida entre as diferentes linguagens de programação que contém o conceito de expressões regulares (também chamado de RE ou REGEX).
Assim, aprender a escrever expressões regulares em Python será útil também para descrever REs em outras linguagens de programação.

Um exemplo de expressão regular é:
```
’\d+’
```
Essa RE representa uma sequência de 1 ou mais dígitos.
Vamos ver algumas regras de como escrever essas REs mais tarde na aula $--$ no momento vamos ver como usar uma RE.

É conveniente escrever a string da RE com um $r$ na frente para especificar uma `raw string`, isto é, uma string onde sequência de caracteres como ’\n’ são tratados como 2 caracteres e não uma quebra de linha.

Assim a RE é:
```
r’\d+’
```

## Método `search`

Expressões regulares e operações sobre eles são definidas na biblioteca [re](https://docs.python.org/3/library/re.html) de Python. A principal função da biblioteca é a função `search`. Dada uma RE e uma string, a função busca a primeira ocorrência de uma substring especificada pela RE.

In [None]:
import re
a = re.search(r'\d+', 'Ouviram do Ipir723anga margens 45')
a

O resultado de `search` é do tipo match que permite extrair informação sobre qual é a substring que foi encontrada (o `match`) e onde na string ele foi encontrado (o `span`).

In [None]:
b = re.search(r'\d+', 'Ouviram do Ipiranga margens')
print(b, type(b))

Neste último exemplo, nenhum `match` é encontrado. Neste caso, b retorna o valor `None` (classe NoneType). Como vimos, o valor `None` se comporta como False em expressões condicionais. Assim, depois de usar o método `search` deve-se verificar se algo foi encontrado:

In [None]:
b = re.search(r'\d+', 'Ouviram do Ipiranga margens')
if b:
    pass
else:
    print("Não encontrado")
a = 0

## Objetos do tipo `match`

O método `span` de um objeto match retorna a posição inicial e final+1 de onde a substring foi encontrada, enquanto o método `group` retorna a substring encontrada:

In [None]:
a = re.search(r'\d+', 'Ouviram do Ipir723anga margens 45')
print(a)
a.span()

In [None]:
a.group()

Note que o método `search` acha apenas a primeira instância da RE na string (o número 45 também satisfaz a RE).

## Outras Funções da biblioteca RE

- A função `findall` retorna uma lista de todas as ocorrências da RE:

In [None]:
re.findall(r'\d+', 'Ouviram do Ipir723anga margens 45')

In [None]:
re.findall(r'\d+', 'Ouviram do Ipiranga margens')

- A função `sub` substitui na string todas as substrings que conformam com a expressão regular fornecida por uma outra substring:

In [None]:
re.sub(r'\d+', '#', 'Ouviram do Ipir723anga margens 45')

- A função `split` funciona como a função `split` para strings, mas permite usar uma expressão regular como separador:

In [None]:
re.split(r'\d+','ab 1 cd34efg h 56789 z')

# Compilando REs

Procurar uma RE numa string pode ser um processamento custoso e
demorado. É possível “compilar” uma RE de forma que a procura seja executada de forma mais rápida:

In [None]:
rec = re.compile(r'\d+')
xpto = rec.search('Ouviram do Ipir723anga margens 45')
print(xpto.group())

As funções vistas anteriormente funcionam também como métodos de REs compilados, e normalmente permitem mais alternativas. Por exemplo, o método `search` de uma RE compilada permite dizer a partir de que ponto da string deve-se começar a procurar a RE:

In [None]:
import re
rec = re.compile(r'\d+')
index = 0
found = True
while found:
    xpto = rec.search('Ouviram do Ipir723anga margens 45', index)
    if xpto:
        print(xpto.group(), 'at position ', xpto.span()[0])
        index = xpto.span()[1]
    else:
        found = False
print('Finish')

# Regras básicas para escrita de uma RE

As letras e números numa RE representam a si próprios. Assim, a RE:
```
r'wb45p'
``` 
representa apenas a substring 'wb45p'.

Os caracteres especiais (chamados de meta-caracteres) são:

## Backslash

As expressões regulares usam o caractere de barra invertida ('\') para indicar formas especiais ou para permitir a utilização de caracteres especiais sem invocar o seu significado especial. Para combinar um literal barra invertida, é preciso escrever '\\\\\\\\' como uma seqüência RE, porque a expressão regular deve ser '\\\\', e cada barra invertida deve ser expressa como '\\\\' dentro de um string literal do Python.

## Repetições

- O meta-caractere $.$ (ponto) representa qualquer caractere. Por exemplo, a RE `r'.ao'` representa todas as strings de 3 caracteres cujos 2 últimos são "ao":

In [None]:
r = re.compile(r'.ão')
r.findall("Adotar um cão é uma ótima opção, pois eles são grandes companheiros!")

- O meta-caractere $+$ representa $1$ (uma) ou mais repetições do caractere ou grupo de caracteres imediatamente anterior.


In [None]:
r1 = re.compile(r'abc(de)+')
r1.search("abcde2de")

In [None]:
# não acha pois tem que ter pelo menos uma cadeia "de"
a = r1.search("Este é o nosso abcedário")
print(a)

- O meta-caractere $*$ representa $0$ ou mais repetições do caractere ou grupo de caracteres imediatamente anterior. Exemplos:

In [None]:
r2 = re.compile(r'abc(de)*')
r2.search("abc1de")

In [None]:
r2.search("Este é o nosso abcedário")

## Classe de caracteres

- A notação $[\ ]$ representa uma classe de caracteres, de forma que deve-se ter um match com algum dos caracteres da classe. Por exemplo, r’m[ei]nta’ significa todas as strings de 5 caracteres que começam com $m$ seguido de um $e$, ou $i$ e terminam com $nta$. No exemplo abaixo, a palavra manta não faz parte da expressão regular:

In [None]:
r = re.compile(r'm[ei]nta')
r.findall("Não minta para mim. Vc sujou a manta de menta ou não? Vc é uma pimenta!")

- O caractere $-$ dentro do $[\ ]$ representa um intervalo. Assim, $[1-7]$ representa um dos dígitos de $1$ a $7$. De forma parecida, $[a-z]$ e $[0-9]$ representam as letras minúsculas e os dígitos, respectivamente.


- O caractere $^$ no início de $[\ ]$ representa a negação da classe. Assim, 
```
r'ab[^h-z]'
```
representa qualquer string começando com $ab$ e terminando com qualquer caractere exceto os de $h$ até $z$.

In [None]:
r = re.compile(r'ab[^h-z]')
r.search("Oi abm")

In [None]:
# não acha pois ab é seguido de h
r.search("Oi abh")

Python fornece algumas classes pré-definidas que são bastante úteis:

- \d - Qualquer dígito decimal, isto é, $[0-9]$
- \D - É o complemento de \d, equivalente a $[$^$0-9]$, i.e, faz o match com um caractere que não seja dígito.
- \s - Faz match com caracteres \textit{whitespace}, i.e, equivalente a $[\t\n\r\f\v]$.
- \S - O complemento de \s.
- \w - Faz o match com um caractere alfanumérico, i.e, equivalente a $[a-zA-Z0-9]$.
- \W - O complemento de \w.

## Opcional

O meta-caractere $?$ significa que o caractere que o precede pode ou não aparecer. Nos dois exemplos abaixo há um match de $r'ab?c'$ tanto com $abc$ quanto com $ac$.

In [None]:
r = re.compile(r'ab?c')
r.search("ac")

In [None]:
r.search("ac")

Pode-se criar um grupo incluindo-se uma string entre parênteses. Por exemplo, se quisermos detectar ocorrências de "Maio/18", "Maio/2018" ou "Maio de 2018", etc, podemos usar a RE `r'Maio(/)? ?(de)? ?(20)?18'`

In [None]:
r = re.compile(r'Maio(/)? ?(de)? ?(20)?18')
r.search("Maio/de18")

In [None]:
r.search("Maio/2018")

In [None]:
r.search("Maio/18")


## Outros Meta-Caracteres

- $|$ representa um OU de diferentes REs.


- \b indica o separador de palavras (pontuação, branco, fim da string).

  - r’\bcasa\b’  ́e a forma correta de procurar a palavra “casa” numa string.

In [None]:
re.search(r'\bcasa\b','a casa')

In [None]:
re.search(r'\bcasa\b',' casa ')

In [None]:
re.search(r'\bcasa\b','o casamento')

# Exemplo - Buscando um email

Vamos construir uma RE para buscar um email:

- O userid é uma sequência de caracteres alfanuméricos \w+ separado por @.
- O host é uma sequência de caracteres alfanuméricos \w+.

In [None]:
re.search(r'\w+@\w+', 'bla bla bla abc@gmail.com bla')

O host não foi casado corretamente. O ponto não é um caractere alfanumérico.
Vamos tentar r'\w+@\w+\.\w+' (note que \. serve para considerar o caractere \. e não o meta-caractere).

In [None]:
re.search(r'\w+@\w+\.\w+', 'bla bla bla abc@gmail.com bla')

In [None]:
re.search(r'\w+@\w+\.\w+', 'bla bla bla abc@gmail.com.br bla')

Note que neste último exemplo não foi casado corretamente o ".br".

Podemos tentar r'\w+@\w+\.\w+(\.\w+)?'. Criamos um grupo no final (\.\w+)? que é um ponto seguido de caracteres alfanuméricos, porém opcional.

In [None]:
re.search(r'\w+@\w+.\w+(.\w+)?', 'bla bla bla abc@gmail.com.br bla')

Agora a RE casa com os dois tipos de endereços de email!

# Exercícios

a. Escreva uma RE para encontrar numeros de telefone do tipo:

 - (019)91234 5678
 - 19 91234 5678
 - 19-91234-5678
 - (19) 91234-5678


In [None]:
import re
p = re.compile(r'(\(0?[0-9]{2}\)|[0-9]{2})( |-)?[0-9]{5}[ -][0-9]{4}')

In [None]:
x = p.search("(019)91234 5678")
x

b. Faca uma função que recebe um string e retorna o string com os números de telefones transformados para um único formato: (19) 91234 5678

# Referência

Consulte a página web (https://docs.python.org/3/howto/regex.html) para uma visão mais completa sobre expressões regulares em Python.