## O que são expressões Regulares?
São linhas de código que permitem a identificação de padrões de cadeias de caracteres específicos dentro de "strigs" e  usá-los para a manipulação do banco de dados (muito importante para transformação de dados)

Exemplos: Identificação de e-mails em textos, substituição de palavras repetitivas por outras, reconhecimento de números padrões como por exemplo um CPF (xxx.xxx.xxx-xx) ou números de cartões de crédito, etc.

Utilizamos a biblioteca "re" (Regular Expressions ou Regex)

In [1]:
import re

### Principais funções utilizadas em "re":
findall: Encontra todas as ocorrências do padrão desejado pelo usuário

search: Vai encontrar a primeira ocorrência e retornar o local que foi encontrado

sub: Para substituir algum trecho de caracteres por outro

compile: compila e salva alguma cadeia de caracteres de interesse para que possa ser reutilizado mais adiante a fim de evitar repetições, como se salvasse determinada cadeia de strings dentro de um objeto. É importante para o desempenho do programa também.

In [2]:
string = 'Este é um teste de expressões teste regulares'

#### Exemplo função "Search"

In [3]:
print(re.search(r'teste',string))

<re.Match object; span=(10, 15), match='teste'>


Podemos observar a estrutura do search como o "r" para indicar entre aspas simples ' ' qual palavra desejamos procurar dentro da cadeia de caracteres e "string" o nome da frase em string desejada.

Podemos observar também que a função retorna a posição (início e fim) da palavra "teste" dentro da frase PORÉM apenas sua primeira ocorrência. Para saber das demais ocorrências usamos uma outra função chamada "findall".

Outra obervação importante é que a função busca EXATAMENTE a palavra desejada, qualquer outra pequena variação a função retorna "none" como resposta.

Este tipo de expressão é muito interessante para o uso de condicionais como por exemplo "se há a palavra 'olá' na frase, substitua esta primeira palavra po 'oi'"

#### Exemplo função "findall"

In [4]:
print(re.findall(r'teste',string))

['teste', 'teste']


Desta vez, a função buscou TODAS as ocorrências da palavra "teste" dentro da frase e retornou uma lista com os caracteres encontrados.

#### Exemplo função "sub"

In [5]:
print(re.sub(r'teste', 'ABCDE', string))

Este é um ABCDE de expressões ABCDE regulares


A função "sub" irá substituir TODAS as palavras citadas da expressão por outra que é especificado num segundo parâmetro.

#### Exemplo função "compile"

Pode-se observar que nos três exemplo estudados até o momentofoi muito repetido a expressão "re.funcão(r'teste',string)" sempre para se trabalhar com uma mesma porção da cadeia de caracteres que no caso é "teste". Para evitar estas repetições usa-se a função "compile". Esta função irá gravar estas partes repetidas em uma variável e, então, o nome desta variável será usado em associação com as outras funções.

In [6]:
reg_teste = re.compile(r'teste')

In [7]:
reg_teste.search(string)

<re.Match object; span=(10, 15), match='teste'>

In [8]:
reg_teste.findall(string)

['teste', 'teste']

In [9]:
reg_teste.sub('ABCDE', string)

'Este é um ABCDE de expressões ABCDE regulares'

Podemos observar que após a compilação, não foi usado mais a chamada da biblioteca "re" e nem a especificação da palavra desejada "teste", uma vez que já estavam todos num mesmo objeto "reg_teste"

Esta etapa do estudo compreende o conhecimento mais básico das funções mais usadas em "re". De agora em diante, serão estudados todas as variantes deste módulo, isto é, técnicas mais avançadas de se encontrarem expressões ussando estas mesmas funções. 

### Meta caracteres: 
.  ^  $  *  +  ?  { } [ ]  \  |  ( ) 

Os Meta Caracteres são caracteres tipo símbolos utilizados em associação com as funções vistas até o momento. Seu objetivo é extrair conjuntos de caracteres de maneira mais eficiente e flexível aumentando o grau de liberdade na manipulação das expressões.

#### Exemplo do "OU"

Dentro do texto abaixo desejamos extrair as palavras "João" OU "Maria", para isso usamos o símbolo pipe " | "

In [10]:
texto = '''
João trouxe    flores para sua amada namorada em 10 de janeiro de 1970,
Maria era o nome dela.
Foi um ano excelente na vida de joão. Teve 5 filhos, todos adultos atualmente.
maria, hoje sua esposa, ainda faz aquele café com pão de queijo nas tardes de
domingo. Também né! Sendo a boa mineira que é, nunca esquece seu famoso
pão de queijo.

Não canso de ouvir a Maria:
"Joooooooooãooooooo, o café tá prontinho aqui. Veeemm"!

Jão
'''

In [11]:
re.findall(r'João|Maria', texto)

['João', 'Maria', 'Maria']

Podemos observar qie a expressão retornou uma lista com TODOS os "João" e "Maria" do texto, porém, apenas os que obedecem exatamente este padrão, deixando de fora por exemplo, os nomes que começam em minúsculo ou possuem alguma outra pequena variação. 

Lembrando que pela lógica, o "OU" significa na prática exibir AMABAS as expressões desejadas, como no caso já visto em outros programas, exibe linhas que contém UM dado e exibe outras linhas que contém o OUTRO dado.

Procurando uma terceira palavra "adultos" temos:

In [12]:
re.findall(r'João|Maria|adultos', texto)

['João', 'Maria', 'adultos', 'Maria']

#### Exemplo para encontar qualquer caractere com o " . ":
Em caso de procurar palavras específicas que suponhamos haver algum erro como por exemplo de ortografia ou apenas alguma variação da palavra escrita involuntariamente, este possível caractere errado pode ser escrito como " . " no lugar, indicando ao programa que procure todas as palavras porém com qualqer outra letra no lugar do ponto indicado.

No exemplo a seguir, temos a palavra do nome João escrito de formas diferentes no texto, pois supomos que quem escreveu possa ter, em algum momento, esquecido de colocar a primeira letra maiúscula, posrtanto, vamos buscar tudo.

In [13]:
re.findall(r'.oão', texto)

['João', 'joão', 'ooão']

A função encontro os caracteres com três variantes para a letra "J": João, joão e ooão.

Esta funcionalidade pode ser usada para mais de uma letra se necessário porém con excessão de quebra de linha.

#### Exemplo de alternativas do "OU" usando colchetes "[  ]":
O uso do colchetes serve para, ao invés de escrevermos duas possíveis palavras separados pelo pipe, podemos incluir os possíveis caracteres que o programa deve encontrar dentro do colchetes "[ ]". Assim podemos modificar ou até mesmo economizar caracteres.

In [14]:
re.findall(r'[Jjo]oão', texto)

['João', 'joão', 'ooão']

Ao invés de especificar quais os possíveis caracteres, um a um, dentro do colchetes, podemos usá-lo também para fazer um range entre intervalos de letras ou números, assim, aumentando mais ainda o grau de flexibilidade da função

In [15]:
re.findall(r'[a-zA-Z0-9]oão|[a-zA-Z0-9]aria', texto)

['João', 'Maria', 'joão', 'maria', 'Maria', 'ooão']

Repare que os ranges a-z, A-Z, 0-9 não exigem nenhuma separação entre si para serem exibidos dentro do colchetes.

Outra e última alternativa para a identificação de caracteres diversos dentro de uma palavra é o uso das "flags". As "flags" são representadas por um parâmetro chamado flag. No caso usamos, dentro deste parâmetro, a palavra "IGNORECASE" ou apenas "I" para que a palavra desejada seja identificada, independente da forma com a qual está escrita.

OBS: O FLAG PODE SER UMA ALTERNATIVA MAIS GERAL PARA SER USADO SEMPRE NOS CÓDIGOS EM CASO DE ESCQUECIMENTO DE TODAS AS REGRAS.

In [16]:
re.findall(r'jOão|MArIa', texto, flags=re.I)

['João', 'Maria', 'joão', 'maria', 'Maria']

In [17]:
re.findall(r'jOao|MArIa', texto, flags=re.I)

['Maria', 'maria', 'Maria']

Por enquanto, conforme a última linha acima, ainda não temos recursos para identificação independente de acentuações gráficas, sendo que ainda nestas condições, as palavras devem obedecer a mesma aceuntuação.

RESUMINDO: Podemos usar os colchetes para ESPECIFICAR AS POSSÍVEIS LETRAS INDIVIDUALMENTE ou ESTABELECER "RANGES" DE POSSÍVEIS CARACTERES. O uso do "flag" NÃO substitui o uso do colchetes, pois com o colchetes podemos informar ao programa que há OUTROS CARACTERES DIFERENTES que não deveriam estar ali por exemplo, com o "flag = re.I" se limitando APENAS ao controle de caracteres MAIÚSCULOS ou MINÚSCULOS. 

#### Quantificadores
Seguindo ainda o uso de caracteres simbólicos para complementar o uso das principais funções regulares, os símbolos a serem vistos à seguir têm a função de quantificadores, isto é, todos os vistos até agora são alternativas às formas dos caracteres. Os quantificadores são para as quantidades dos caracteres ou, até mesmo, indicar que há caracteres faltantes.

#### Caracteres que podem haver de 1 a n quantidades " + ":
Em caso de caracteres duplicados, proposital ou não intencionalmente, temos uma opção para indicar ao Python que objetos logo à esquerda deste quantificador pode estar sendo repetido na palavra ao menos uma vez (de 1 a n) e que é para serem todos exibidos.

In [18]:
re.findall(r'jo+ão', texto, flags=re.I)

['João', 'joão', 'Joooooooooão']

Reparem que no texto há a palavra "Joooooooooãooooooo" e as repetições da última letra foram ignoradas. Isto ocorreu porque para que sejam levadas em consideração deve haver o " + " à sua direita também.

In [19]:
re.findall(r'jo+ão+', texto, flags=re.I)

['João', 'joão', 'Joooooooooãooooooo']

Agora sim, ambos os lados com repetições da letra "o" foram identificados com o uso da expressão regular. 

#### Caracteres que podem haver  0 ou n quantidades " * ":
Em caso de caracteres duplicados, proposital ou não intencionalmente, temos uma opção para indicar ao Python que objetos logo à esquerda deste quantificador pode nem existir ou serem repetidos infinitamente (de 0 a n) e que é para serem todos exibidos.

Ou seja, este quantificador " * " indica que o caractere que está LOGO À SUA ESQUERDA pode nem existir mas se existir pode haver infinitos dele. Praticamente a mesma coisa do " + " porém retorna a palavra mesmo se estiver faltando caractere. 

Para o exemplo, foi incluído a palavra "Jão" no texto:

In [20]:
re.findall(r'Jo*ão*', texto, flags = re.I) #flags para exibir se estiver em maiúsculo ou minúsculo

['João', 'joão', 'Joooooooooãooooooo', 'Jão']

A palavra "Jão" foi exibida mesmo faltando o 1° "o" graças ao " * "

#### Caracteres para indicar que pode ou não existir os caracteres à esquerda " ? ":

De maneira semelhante aos outros quantificadores até agora porém com uma funcionalidade um pouco mais restrita, temos o " ?", que indica ao programa que o caractere à sua esquerda PODE OU NÃO estar faltando, mas que independente disso deve ser exibido.

In [21]:
re.findall(r'Jo?ão', texto, flags = re.I)

['João', 'joão', 'Jão']

#### Quantificadores específicos utilizando chaves "{ }":
Os quantificadores vistos até o momento são na verdade atalhos para os quantificadores. Neste caso, os quantificadores usando chaves " {} " fazem o mesmo papel, porém muito mais generalistas e flexíveis sendo usados para "dizer" à expressão que as repetições de determinado caractere pode ocorrer da seguinte maneira:

{n} : O caractere ocorre EXATAMENTE n vezes e para exibi-lo;
{,n} ou {0,n} : O caractere talvez nem exista mas se existir pode ocorrer no máximo na quantidade n;
{min,max} : O caractere pode existir na quantidade de um valor mínimo (diferente de 0) até um valor máximo limitado
{min,} : pode existir de um valor mínimo até um valor ilimitado e para exibir a todos.

In [22]:
re.findall(r'Jo{0,}ão', texto, flags = re.I)

['João', 'joão', 'Joooooooooão', 'Jão']

todos os valores foram exibidos, exceto a segunda repetição do terceiro "João" da lista pois não foi especificado após o seu segundo "o".

In [23]:
re.findall(r'Jo{0,}ão{0,}', texto, flags = re.I)

['João', 'joão', 'Joooooooooãooooooo', 'Jão']

Para exibir as palavras com qualquer caractere que obedeçam a um "range" e toda a sua quantidade máxima, usamos os colchetes associados a algum quantificador

In [24]:
re.findall(r'Jo[a-zA-Z]+ão', texto, flags = re.I)

['Joooooooooão']