<a href="https://colab.research.google.com/github/joaopcnogueira/colab-notebooks/blob/main/Regex_with_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Regex no Python

In [None]:
import re

- **Busca**: funções `re.search`, `re.findall`, `re.finditer`

- **Substituição**: função `re.sub`

- **Divisão**: função `re.split`

- **ER crua**: funções `r'raw string'`

- **Ignore M/m**: Modificadores `?i`, `re.I`

- **Global**: É o padrão

## Busca

### search
Para testar se uma expressão casou ou não em um determinado texto (ou variável), use a função `search`.

In [None]:
# m: abreviação para match
m = re.search(r'^Py', 'Python')

if m:
    print('Casou')
else:
    print('Não casou')

Casou


In [None]:
m.group()

'Py'

In [None]:
m.start()

0

In [None]:
m.end()

2

In [None]:
m.span()

(0, 2)

O método `group` traz o trecho de texto casado pela expressão. Com os métodos `start` e `end`, você obtém a posição de ínício e fim o trecho casado na string original. O método `span` é similar, porém já traz ambas as posições dentro de uma tupla. Lembre-se de que em Python os índices iniciam em zero.

Se a sua expressão contém grupos, além das informações do casamento com um todo (considerando grupo zero), você também pode obter informações sobre cada um dos grupos informando seu número. Há também o método `groups` que retorna uma tupla com o conteúdo casado de todos os grupos.

In [None]:
m = re.search(r'(..)/(..)/(....)', '31/12/2021')

In [None]:
m.group(0)

'31/12/2021'

In [None]:
m.group(1)

'31'

In [None]:
m.group(2)

'12'

In [None]:
m.group(3)

'2021'

In [None]:
m.groups()

('31', '12', '2021')

In [None]:
print(m.span(0))
print(m.span(1))
print(m.span(2))
print(m.span(3))

(0, 10)
(0, 2)
(3, 5)
(6, 10)


### findall

E se a expressão casar mais de uma vez no texto? Para encontrar todas as ocorrências, use a função `findall`. Ela retorna uma lista com todos os trechos de texto casados pela expressão, ou uma lista vazia, se não casar.

No próximo exemplo, observe como a função `search` só retornará o primeiro match.

In [None]:
texto = "Corri 3km em 15 minutos ouvindo CPM 22."

re.search(r'\d+', texto).group()

'3'

In [None]:
re.findall(r'\d+', texto)

['3', '15', '22']

In [None]:
re.findall(r'XXX', texto)

[]

Se houver grupos na expressão, o retorna da função será uma lista de tuplas. Cada tupla representa um casamento, trazendo o conteúdo de todos os seus grupos.

In [None]:
texto = "Acordei às 08:00, comi 12:30, dormi às 23:59."

re.findall(r'(\d\d):(\d\d)', texto)

[('08', '00'), ('12', '30'), ('23', '59')]

In [None]:
re.findall(r'(\d\d:\d\d)', texto)

['08:00', '12:30', '23:59']

### finditer

Uma maneira mais sofisticada de se lidar com múltiplas ocorrências é fazer um loop nos casamentos, usando a função `finditer`. Você pode inspecionar cada ocorrência, usando aqueles métodos bacanas que já vimos anteriormente, como `group` e `span`.

In [None]:
texto = "Acordei às 08:00, comi 12:30, dormi às 23:59."

for match in re.finditer(r'(\d\d):(\d\d)', texto):
    hora = match.group(1)
    minutos = match.group(2)
    print(f'{hora} horas, {minutos} minutos')

08 horas, 00 minutos
12 horas, 30 minutos
23 horas, 59 minutos


Um método útil de se utilizar dentro de loops é o `expands`, que funciona de maneira similar à substituição, expandindo os
retrovisores `\1, \2, ...`.

In [None]:
texto = "Acordei às 08:00, comi 12:30, dormi às 23:59."

for match in re.finditer(r'(\d\d):(\d\d)', texto):
    print(match.expand(r'\1 horas, \2 minutos'))

08 horas, 00 minutos
12 horas, 30 minutos
23 horas, 59 minutos


## Substituição

A substituição é feita pela função `sub`, que troca todas as ocorrências encontradas. Ela aceita um quarto argumento opcional para limitar o número de substituições a serem feitas:

In [None]:
re.sub(r'\w', '.', 'Python')

'......'

In [None]:
re.sub(r'\w', '.', 'Python', 2)

'..thon'

Os retrovisores são referenciados normalmente, usando a contrabarra. Por isso, lembre-se de também colocar o texto substituto dentro de uma "raw string", para evitar problemas de escape.

In [None]:
re.sub(r'(Py).*', r'\1\1', 'Python')

'PyPy'

Uma sintaxe alternativa para os retrovisores é `\g<1>, \g<2>`, útil quando você precisar de um número literal logo após o retrovisor.

In [None]:
# error: invalid group reference 13 at position 1
# re.sub(r'(Py).*', r'\13', 'Python')

In [None]:
re.sub(r'(Py).*', r'\g<1>3', 'Python')

'Py3'

Para substituições realmente estilosas, você pode usar uma função no lugar do texto substituto. Esta função receberá uma instância de `MatchObject` para cada ocorrência e deve retornar uma string.

In [None]:
def data_por_extenso(match):
    dia, mes, ano = match.group(1), match.group(2), match.group(3)
    meses = {
        '01':'Janeiro', '02':'Fevereiro', '03':'Março',
        '04':'Abril', '05':'Maio', '06':'Junho', 
        '07':'Julho', '08':'Agosto','09':'Setembro', 
        '10':'Outubro', '11':'Novembro', '12':'Dezembro'
    }
    
    return dia + " de " + meses[mes] + " de " + ano 

In [None]:
texto = "Hoje é dia 31/12/2021"
regex = r'(\d\d)/(\d\d)/(\d\d\d\d)'

re.sub(regex, data_por_extenso, texto)

'Hoje é dia 31 de Dezembro de 2021'

## Divisão

### split

In [None]:
re.split(r'[/]', '31/12/99')

['31', '12', '99']

In [None]:
# realizar apenas o primeiro split
re.split(r'[/]', '31/12/99', 1)

['31', '12/99']

### compile

Se você for utilizar a mesma expressão mais de uma vez, é possível compilá-la para garantir uma execução mais rápida. O objeto retornado da compilação tem os mesmos métodos o módulo `re`, então você pode casar, substituir e dividir textos usando expressões regulares compiladas.

In [None]:
# Primeiro compile as expressões
er_hora = re.compile(r'(\d\d):(\d\d)')
er_separador = re.compile(r'[/.:]')

In [None]:
# Agora pode usá-las diretamente para pesquisar ...
if er_hora.search('23:59'):
    print('Casou')

Casou


In [None]:
# para substituir ...
er_hora.sub(r'\1h\2min', '23:59')

'23h59min'

In [None]:
# e para dividr
print(er_separador.split('1.23'))
print(er_separador.split('23:59'))
print(er_separador.split('31/12/99'))

['1', '23']
['23', '59']
['31', '12', '99']


# Lookahead & Lookbehind

## Positive Lookahead

**Sintaxe:** `(?=ER)`, onde `ER := Expressão Regular`

Não casa caracteres na posição atual, mas dá uma "espiada" adiante (look ahead), e caso a ER embutida case, retorna sucesso. É como só apostar na loteria se você já souber o resultado. Por exemplo, a ER `Homer (?=Simpson)` só casará o `Homer` se for seguido de Simpson. Mas o sobrenome não faz parte do trecho casado, serviu apenas para checagem.

In [None]:
re.findall(r'Homer (?=Simpson)', 'Homer Simpson')

['Homer ']

tirando o espaço:

In [None]:
re.findall(r'Homer(?=\s?Simpson)', 'Homer Simpson')

['Homer']

In [None]:
texto = '''
Homer Simpson
Homer Carpinter
Homer Michael
'''

re.findall(r'Homer(?=\s?Simpson)', texto)

['Homer']

## Negative Lookahead

**Sintaxe:** `(?!ER)`

É o contrário do anterior, só casando um trecho se este não for seguido da ER embutida. Então `Home (?!morreu)` casa o Homer do texto "Homer comeu", mas não do "Homer morreu".

In [None]:
texto = '''
Homer morreu
Homer comeu
'''

re.findall(r'Homer (?!morreu)', texto)

['Homer ']

In [None]:
texto = '''
Homer Simpson
Homer Carpinter
Homer Michael
'''

re.findall(r'Homer(?! Simpson)', texto)

['Homer', 'Homer']

Para memorizar os dois últimos metacaracteres, veja seus identificadores: `=` e `!`, que lembra os operadores `==` e `!=`.

## Positive Lookbehind & Negative Lookbehind

**Sintaxe:** 

- Positive Lookbehind: `(?<=ER)`

- Negative Lookbehind: `(?<!ER)`

Estes dois são complementares aos dois anteriores, a diferença é que, em vez de espiar para frente, eles espiam para trás (note o `<` apontando para a esquerda). Então `(?<!Barney) Simpson` casará Simpson em "Homer Simpson", mas não em "Barney Simpson".

In [None]:
texto = '''
Homer Simpson
Barney Simpson
'''

re.findall(r'(?<!Barney) Simpson', texto)

[' Simpson']

## Exemplos

### Negative Lookbehind

In [None]:
sql = '''
SELECT
    T1.order_id,
    T2.product_name,
    T2.product_price
FROM app_analytics.order as T1
LEFT JOIN app_analytics.order_items as T2
ON T1.order_id = T2.order_id
'''

re.findall(r'(\w+)\.(\w+)', sql)

[('T1', 'order_id'),
 ('T2', 'product_name'),
 ('T2', 'product_price'),
 ('app_analytics', 'order'),
 ('app_analytics', 'order_items'),
 ('T1', 'order_id'),
 ('T2', 'order_id')]

Desejamos que apenas os nomes das tabelas e seus respectivos schemas sejam retornados (na consulta acima os nomes das colunas também foram retornados), logo devemos dar um o match em um ponto `.` que não seja precedido por um número. Dessa forma, devemos espiar atrás (lookbehind) e selecionar apenas os pontos `.` que não sejam precedidos por um número (negative lookbehind).

In [None]:
re.findall(r'(?<!\d)\.(\w+)', sql)

['order', 'order_items']

Agora sim temos apenas os nomes das tabelas.

### Positive Lookahead

extrair apenas os nomes das cores

In [None]:
texto = '''
fortaleza_azul.jpg
atletico_mineiro_preto.jpg
sao_paulo_vermelho.jpg
palmeiras_esporte_clube_verde.jpg
'''

In [None]:
re.findall(r'_(?=([a-z]+)\.jpg)', texto)

['azul', 'preto', 'vermelho', 'verde']

Explicação: iremos dar match apenas em underscores `_` que à sua frente possuam apenas letras.

### Nem tudo é Lookahead ou Lookbehind

Se quisermos extrair apenas os nomes dos clubes? Parece ser um problema em que temos que utilizar lookahead ou lookbehind, mas não. Uma regex mais simples já resolve (UFA!).

In [None]:
# extrair apenas os nomes dos clubes

texto = '''
fortaleza_azul.jpg
atletico_mineiro_preto.jpg
sao_paulo_vermelho.jpg
palmeiras_esporte_clube_verde.jpg
'''

re.findall(r'(\w+)_', texto)

['fortaleza', 'atletico_mineiro', 'sao_paulo', 'palmeiras_esporte_clube']

# Referências

1. Livro [Expressões Regulares: Uma Abordagem Divertida](https://www.amazon.com.br/Express%C3%B5es-Regulares-Uma-Abordagem-Divertida/dp/8575224743/ref=sr_1_1?__mk_pt_BR=%C3%85M%C3%85%C5%BD%C3%95%C3%91&keywords=express%C3%B5es+regulares&qid=1636317835&sr=8-1)
2. Site https://aurelio.net/regex/python/