### Regular Expressions
- Módulo do Python utilizado para detectar padrões em sequências de caracteres 
- Vamos começar testando suas funcionalidades tentando extrair o cep de uma variável endereço

In [15]:
import re # Também usualmente citada como 'RegExp'

endereco = 'Avenida Presidente Joao Goulart, 6, 06036-048, Umuarama / Torre Sauipe - Apto 137'

- O método do módulo re responsável por gerar um determinado tipo de padrão a ser buscada em uma string é o método compile. No caso da busca pela informação de cep, temos um padrão específico de interesse: ddddd-ddd (ou seja, 5 dígitos númericos, um hífen opcional e, por fim, mais 3 dígitos numéricos)

In [14]:
pattern = re.compile('[1234567890][1234567890][1234567890][1234567890][1234567890][-]?[1234567890][1234567890][1234567890]') 
# essa é a sintaxe de definição do padrão de interesse, conforme descrito no bloco anterior (5 digitos numericos + hífen opcional + 3 dígitos numéricos)

# uma vez definida essa variável, precisamos buscar o padrão na sequência de caracteres em estudo
# fazemos essa busca a partir de um objeto 'match' definido da seguinte maneira:
busca = pattern.search(endereco) 

if busca:
    cep = busca.group() 
    # método responsável por retornar o conjunto de strings encontrado naquele padrão

    print(cep)
else:
    print('O padrão fornecido não foi encontrado dentro da sequência indicada')


O padrão fornecido não foi encontrado dentro da sequência indicada


- Apesar de extremamente útil da maneira que já foi implementado, o padrão do método compile está bastante repetitivo e até meio confuso. Existe uma maneira de definí-lo de uma forma mais compacta e direta, que é utilizando ***quantificadores*** e ***intervalos***

    - Os ***quantificadores*** servem justamente para indicar quantas vezes um determinado conjunto de caracteres deve aparecer no padrão de busca. Eles também podem ser definidos de maneira limitadora (ou seja, ao invés de especificar **exatamente** a quantidade de vezes que o conjunto deve aparecer, podemos dizer **até quantas vezes** ele pode aparecer);

    - Os ***intervalos***, por outro lado, servem para facilitar a indicação de caracteres dos conjuntos em análise.


In [16]:
#pattern = re.compile('[0-9]{5}[-]?[0-9]{3}') 
#ou
pattern = re.compile('[0-9]{5}[-]{0,1}[0-9]{3}')

# em outras palavras, estamos dizendo o seguinte: o conjunto com caracteres no intervalo 0-9 deve aparecer exatamente 5 vezes; após isso, temos um caractere do tipo hífen que pode aparecer ou nenhuma (0) ou no máxima uma (1) vez e, por fim, temos novamente um conjunto de caracteres numéricos que deve aparecer exatamente 3 vezes

busca = pattern.search(endereco) 

if busca:
    cep = busca.group() 

    print(cep)
else:
    print('O padrão fornecido não foi encontrado dentro da sequência indicada')


06036-048
