<a href="https://colab.research.google.com/github/labeduc/ciencia-de-dados/blob/main/python/LabEduc%20-%20Python%20-%20Express%C3%B5es%20Regulares.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Expressões Regulares - Salvação ou Dor de Cabeça???

## Introdução

Umas das operações mais comuns que temos em algoritmos é encontrar ou comparar pedaços de strings baseados em um padrão. O próprio objeto str do Python nos auxilia com esse tipo com funções do tipo **.startsWith()**, **.endsWith()** **.replace()** e mais algumas outras. O próprio operador **IN** serve tanto para identificar se uma string está contida entre os elementos de uma lista ou se ela faz parte de outra string.

## E quando procuramos por padrões mais complexos?

Entram em cena as expressões regulares, que nada mais são strings que através de uma convenção, estabelece um padrão de como se espera que outras strings sejam formadas. Utilizando a biblioteca **re**, nós aplicamos a expressão em uma string e temos como retorno um objeto do tipo **match**, que vem preenchido quando a string contém o padrão. Também é possível que este objeto match tenha sub objetos do tipo **group**, que indicam que a expressão regular solicita para identificar pedaços específicos da string.

Vamos analisar uma expressão para entender na prática???

## Analisando uma expressão

Dada a expressão 

```python
regex = r"^(.+)\((.+)\)\s*\-*\s*(.*)$"
```

vamos entender suas partes. Mas antes, vamos à algumas definições.

### Como criar uma expressão regular

#### String de Expressão Regular - r""

Esta linha de código em Python nos apresenta uma variável chamada regex que recebe uma string que representa a expressão regular. Até aí, isto é comum, uma variável recebendo uma string como valor. O que vale a pena notar é que a string é precedida da letra r, o que diz para o compilador Python que esta string contém uma expressão regular e que torna mais fácil sua escrita.

#### Caracteres âncora ^ e $

O primeiro elemento da expressão é o caracter **^** que demarca o início da expressão. Isso também implica geralmente em ter a expressão finalizada por um **$**, que é indicador do final da expressão. Estes elementos são ditos âncoras e indicam que a expressão regular, ao avaliar outra string, deve iniciar pelas posições iniciais. 

Quando estas âncoras não estão presentes na expressão, significa que ela pode ser encontrada em qualquer parte da string.

#### Grupos
- O **(** e **)** parenteses indica que a expressão ali dentro deverá ser extraída como um sub objeto **group**. Podemos identificar em nossa expressão que ela contém 3 grupos, o que significa que ao encontrar um match, o avaliador irá também extrair os 3 grupos e disponibiliza-los em uma lista. Se estes mesmos grupos estivessem representados por **[** e **]**, eles não seriam extraídos para a lista de grupos.

#### Caracter de escape
O caracter **\** é considerado um caracter de escape, ou seja, ele nos auxilia a dar um significado a outro caracter em nossa expressão. 

Por exemplo, **\(** que está após o primeiro grupo, significa que o caracter **(** deve estar na string de maneira literal, ou seja, para que exista um match, a nossa string com certeza deve possuir um **(**.

Mas nunca é tão simples. Este mesmo caracter **\** quando em conjunto com alguns caracteres específicos, indicam um padrão de subsituição na expressão regular. Exemplos:
- **\s** significa que naquela posição da expressão é esperado um espaço
- **\S**  significa qualquer caracter que não seja um espaço
- **\w** significa qualquer letra
- **\W** significa qualquer coisa que não seja letra
- **\d** significa qualquer dígito
- **\D** significa qualquer coisa que não seja dígito

#### Outros caracteres especiais em uma expressão regular

- **.** significa que a expressão faz match de qualquer caracter, sejam letras, números ou pontuações
- **+**, quando sucede nossos caracteres especiais, indica que aquele padrão ocorre pelo menos uma vez
-  __*__, quando sucede nossos caracteres especiais, indica que aquele padrão pode ocorre muitas vezes ou nenhuma.

#### E quando precisamos limitar mais os caracteres permitidos???

Se desejamos limitar ainda mais os caracteres que devem fazer parte da nossa expressão, podemos utilizar a nossa lista de caracteres válidos entre **[** e **]**. Vejamos alguns exemplos:
- [ab\-]+ - significa que aceitamos apenas os caracteres a, b e - em qualquer ordem e pelo menos 1 (pelo modificador +)
- [a-z]+ - aceitamos apenas letras de a a z minúsculas
- [A-Z0-9]+ - aceitamos apenas letras de A a Z maiúsculas e números de 0 a 9

### Agora sim, vamos entender aquela expressão lá do início???

Quais strings essa expressão regular faz o match???

```python
regex = r"^(.+)\((.+)\)\s*\-*\s*(.*)$"
```

A nossa expressão pega uma string pelo início (**^**), procura por pelo menos um caracter qualquer **(.+)** que será extraído para um grupo. Logo após esta sequência de um ou mais caracteres, deve encontrar um **(**, que deve ser sucedido por outro grupo qualquer de caracteres **(.+)** e que termina ao encontrar o caracter literal **)**.

E nossa expressão continua. Após o **)**, procuramos por uma sequência de 0 ou mais espaços em branco **\s***, sucedidos pelo caracter literal **-** que pode ser sucedido novamente por 0 ou mais espaços em branco **\s***.

Nossa expressão termina esperando mais um grupo qualquer de caracteres **(.+)**, e o fim da string.

#### WOW, que explicação!!! Mas o que isso significa mesmo???
Significa que a string `João Sousa (jsousa@dell.com) - Dell` é reconhecida pela expressão regular, que retorna 3 grupos: nome, email e empresa.

Já a string `Jose Silva [jose_silva@dell.com] Dell Technologies` não é reconhecida, porque partes da expressão regular não batem com nossa string.


## Pondo em Prática

Agora vamos ver um exemplo básico de como utilizar expressões regulares: validação de dados. O código abaixo valida uma lista de e-mails para verificar se todos eles são válidos. Execute o código para ver funcionando e adicione ou mude valores na lista e execute novamente para ver como ele funciona!

In [2]:
import re # importando a biblioteca de expressões regulares

lista_emails = ["joao@gmail.com", "jose.silva@gmail.com", "maria_alcantara#gmail.com", "@joao@gmail.com"] # nossa lista de emails a serem validados

expressao_regular = r"^[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}$" # a expressao regular

for email in lista_emails:
  match = re.match(expressao_regular, email)
  if match:
    print(f"O email {email} é válido!")
  else:
    print(f"O email {email} não é válido!")

O email joao@gmail.com é válido!
O email jose.silva@gmail.com é válido!
O email maria_alcantara#gmail.com não é válido!
O email @joao@gmail.com não é válido!


# **Exercício**: Agora é hora de você testar seus conhecimentos!

Seguindo o nosso exemplo acima, temos um desafio para você: queremos que você escreva uma expressão regular para validar o formato de um CPF! Temos nossa lista de CPFs que foram preenchidos em um site, e queremos saber se eles têm o formato correto. Apenas complete o código abaixo com a expressão regular!

In [None]:
import re # importando a biblioteca de expressões regulares

lista_cpfs = ["923.343.000-00", "923343z00-00", "067.234.060-70", "656-203-0009-0"] # lista de CPFs

expressao_regular = r"" # preencha sua expressão regular aqui

for cpf in lista_cpfs:
  match = re.match(expressao_regular, cpf)
  if match:
    print(f"O CPF {cpf} tem o formato correto!")
  else:
    print(f"O CPF {cpf} não tem o formato correto!")


# Quer Aprender Mais???

Gostou de expressões regulares? Quer aprender mais? 

Então, segue os links abaixo e bons estudos!!!

- [Regex101 - Ferramenta para testar expressões regulares](https://regex101.com/)
- [DevMedia - Sintaxes Básica em Expressões Regulares](https://www.devmedia.com.br/iniciando-expressoes-regulares/6557)
- [Mozilla Docs - Expressões Regulares](https://developer.mozilla.org/pt-BR/docs/Web/JavaScript/Guide/Regular_Expressions)