# Expressoes Regulares

* https://docs.python.org/2/library/re.html
* https://medium.com/trainingcenter/entendendo-de-uma-vez-por-todas-express%C3%B5es-regulares-parte-1-introdu%C3%A7%C3%A3o-dfe63e289dc3
* https://www.youtube.com/watch?v=aPk2ruhi2Zk
* https://regex101.com/
* https://regexr.com/

## Usando Expressoes Regulares em Python

In [1]:
import re

In [None]:
re.search() #Retorna a primeira correspondência
print(padrao.group())
re.findall() #Retorna todas as correspondências
print(padrao)
re.split() #Divide o texto baseado num padrao
re.sub() #Substitui uma string, por outra string, num texto (todos definidos como parametros)

In [14]:
padrao = re.search(r'\b\woi\b','boi da cara preta')
if padrao:
    print(padrao.group())

boi


## Comandos

### Metacaracteres

**\d** - Numeros de 0 a 9

**\w** - Todas as letras, números e underlines

**\s** - Considera qualquer espaço em branco, seja ele um espaço, um tab, uma nova linha, um form feed e até mesmo um vertical tab

**\S** - Negação de \s (vale para todas as letras)

**.** - Qualquer caractere

**-** - Range entre duas coisas antes e depois do hífen

**\** - Representa o valor literal do caractere (quando ele sozinho é um metacharacter). O seu significado semântico ( \ . \ - \ /)

**|** - Ou, para separar expressões regulares

### Classes de caracteres

**[A-Za-z]** - Todas as letras

**[1234] ou [1-4]** - Números de 1 á 4

**[A-Za-z0-9] ou \w** - Todas as letras e números

**[\wçãà]** -  Todas as letras, números e ç,ã,à

### Quantifiers

**Definição:** Determina uma quantidade de vezes

**{n}** - Aparece n vezes

**{n,}** - Aparece no mínimo n vezes

**{n,m}** - Aparece no mínimo n vezes e no máximo m vezes

**+** - Aparece no mínimo 1 vez

**?** - Pode ou não aparecer (apenas uma vez)

***** - Pode não aparecer ou aparecer várias vezes

**a.+z** - Primeiro a até o último z

**a.+?z** - Primeiro a até o primeiro z

### Grupos de caracteres

**Definição:** São formas de agrupar expressões. Com eles, podemos selecionar o que queremos ou não receber nos resultados

**()** - Define um grupo no código (Cada grupo recebe um numeração)

**(?: )** - Não receberemos esse grupo nos resultados e ele não ganha uma numeração

**\n** - A mesma coisa que apareceu no grupo de numeração n

### Âncoras

**Definição:** Serve para que você delimite um começo e um fim em uma expressão regular,

**\b** - Backspace. Não começa e nem termina com letras, números ou underline além da expressão

**^** - Tag de início: não temos nada antes da expressão

**$** - Tag de Fim: não temos nada depois da expressão
OBS: precisamos usar /g /m

### Exemplos

**1)** Verificar se uma data é válida:

    [0-3]?\d\/[0-1]\d\/[12]\d{3}

**2)** Validar um username com as seguintes regras:
* Deve conter apenas letras minúsculas;
* Pode conter números, underline e hífen;
* Deve ter entre 3 e 16 caracteres.

    [a-z0-9_-]{3,16}
    
**3)** Selecionar o título no texto abaixo
h1 Meu Titulo h1

    (?:h1)\s([\w\s]+)\s(?:h1)
    
**4)** Selecionar os títulos no texto abaixo:
h1 Meu Titulo h1
h2 Meu Titulo h2
h3 Meu Titulo errado h4

    (?:(h[1-6]))\s([\w\s]+)\s(?:\1)
    
**5)** Filtrar um padrão especifico de nomenclatura dos arquivos:
2017-index_produto.txt
produtos.txt
2017-index_clientes.txt
clientes.txt
2016-users.txt

    ^\d{4}-\w+.txt$