# 3.8 - Expressões Regulares

Nesta aula são abordados os seguinte temas:
1. Itrodução às Expressões Regulares;
2. Expressões Regulares em Python.

## 1. Introdução

Expressões regulares, ou *regex*, são padrões que representam texto. Assim é possível verificar se um padrão forma uma string ou faz parte dela.

Exemplos:
- O padrão "diário" existe na string "querido diário"?
- O padrão "[qQ]uerido [dD]iário" bate com a string "Querido diário"?

Exemplos de sitaxe *regex* utilizando o alfabeto:

| Padrão |                           Resultado                           |
|:------:|:-------------------------------------------------------------:|
|    a   |                     Apenas o caractere "a"                    |
|  [aA]  |              Qualquer caractere do alfabeto "aA"              |
|  [A-Z] |    Qualquer caractere do alfabeto de "A" a "Z" (maiúsculas)   |
| [^0-9] | Qualquer caractere, exceto caracteres do alfabeto "0" até "9" |

Exemplos de sitaxe *regex* utilizando atalhos:

| Padrão |                                        Resultado                                       |
|:------:|:--------------------------------------------------------------------------------------:|
|   \w   |                 O mesmo que [a-zA-Z_]. Usado quando queremos "palavras"                |
|   \d   |                    O mesmo que [0-9]. Usado quando queremos "número"                   |
|   \s   | Qualquer caractere em branco, como "quebra de linha", "tabulação" e "espaço em branco" |
|    .   |                      Qualquer caractere, exceto "quebra de linha"                      |

Exemplos de sitaxe *regex* utilizando uma sequência:

|   Padrão  |                         Resultado                         |
|:---------:|:---------------------------------------------------------:|
|   diário  |              Sequência de caracteres "diário"             |
| [dD]iário | Mesma sequência anterior, só que com "d" ou "D" no início |
|  [0-9]{4} |     Sequência de 4 caracteres dos dígitos de "0" a "9"    |
|    \w+    |    Sequência de 1 ou mais caracteres que são "palavras"   |
|    \s*    |       Sequência de 0 ou mais caracteres "em branco"       |

Exemplos de sitaxe *regex* utilizando âncora, escape e grupos:

|      Padrão      |                                                  Resultado                                                    |
|:----------------:|:-------------------------------------------------------------------------------------------------------------:|
|     ^querido     |                             "^" indica que "querido" está no começo da _string_                               |
|      diário$     |                               "$" indica que "diário" está no fim da _string_                                 |
|       www\\.     | "www" seguido pelo caractere "." (ponto). Sem o escape "\\", o ponto seria a sintaxe de "qualquer caractere"  |
| querido (diário) |                       Resultados com "querido diário", mas só captura o grupo "diário"                        |

Exemplos de sitaxe *regex* utilizando condições:

|      Padrão     |                       Resultado                       |
|:---------------:|:-----------------------------------------------------:|
| querido\|diário |       Sequência "querido" ou sequência "diário"       |
|      https?     | O "s" no final é opcional, ou seja, "http" ou "https" |
|    [dD]?iário   |             "diário", "Diário" ou "iário"             |

# 2. Python

Utilização do módulo *re* para fazer as buscas:

|           Função           |                       Resultado                       |
|:--------------------------:|:-----------------------------------------------------:|
|   re.macth(padrão, strin)  | Verifica se o "padrão" bate totalmente com a "string" |
|  re.search(padrão, string) |       Verifica se o "padrão" existe na "string"       |
| re.findall(padrão, string) |   Busca todas as ocorrências do "padrão" na "string"  |

Abaixo, um exemplo prático de como utilizar *regex* e o método *re* para fazer uma busca:

In [1]:
import re

texto = "Querido Diário, hoje eu..."

# Obs: o "r" antes das strings signifca "raw", ou seja, faz com que a string se interpretada de maneira bruta e evita problemas com o escape ("\") da regex

diario = re.search(r"[dD]iário", texto) # busca por "diário" ou "Diário" na string da variável texto
print(diario.group()) # imprime o grupo encontrado na busca = "Diário"

reticencias = re.search(r"\.{3}", texto) # busca por uma sequência de 3 caracteres preenchida com ponto (.) na string da variável texto
print(reticencias.group()) # imprime o grupo encontrado na busca = "..."
print(reticencias) # imrprime o objeto de busca = <re.Match object; span=(23, 26), match="...">

pontos = re.findall(r"\.", texto) # busca por todo ponto (".") na string da variável texto
print(pontos) # retorna uma lista com todos os resultados obtidos = [".", ".", "."]

Diário
...
<re.Match object; span=(23, 26), match='...'>
['.', '.', '.']
