# Regex Matching e âncoras

Correspondência de padrões em cadeias de caracteres (str) usando expressões regulares. <br>
Expressões regulares (ou regexes) são escritas em uma linguagem de formatação condensada.

Em geral, você pode pensar na expressão regular como um padrão que você fornece a um processador regex com alguns dados de origem. Em seguida, o processador analisa esses dados de origem usando o padrão e retorna trechos de texto para cientista de dados ou programador para posterior manipulação. <br>
Existem três razões principais pelas quais você deve querer fazer isso.
- 1° Para verificar se existe um padrão em alguns dados de origem.
- 2° Para obter todas as instâncias de um padrão complexo de alguns dados de origem.
- 3° Para limpar seus dados de origem usando um padrão, geralmente por meio da divisão de cadeias.

Os regexes não são triviais, mas são uma técnica fundamental para limpeza de dados em aplicativos de cîencia de dados. Além disso, uma sólida compreensão dos regexes ajudará você a manipular dados de texto de forma rápida e eficiente para outras aplicações de ciência de dados. Vamos entender um pouco sobre o __BÁSICO__ de regex.

RESUMINDO: Regex (abreviação de regular expressions) são expressões regulares usadas para procurar, extrair, validar ou substituir padrões em textos (strings). <br>

E o que é uma âncora afinal? <br>
R: Uma âncora é um elemento que não corresponde a um caractere, mas sim a uma posição no texto. Ela diz ONDE o padrão deve ocorrer, não o que deve ocorrer. 

#### Padrões simples

In [1]:
# Primeiro, vamos importar o módulo RE, que é onde o Python armazena bibliotecas  de expressões regulares.
import re

In [None]:
# Há varias funções principais de processamento no RE que você pode usar.

# A primeira correspondência verifica se há uma correspondência de string que esteja no início da string e retorna um booleano. Da mesma forma, a pesquisa verifica uma correspondência em qualquer lugar da string e retorna um booleano.

# EXEMPLO: 
texto = 'Esse é um texto de exemplo. Bom dia!'

# Vamos verificar se esse texto possui bom dia. 
if re.search('bom', texto.lower()):
    print('Existe')

else: 
    print('Não existe')

# OBS: também dá para fazer isso com "if 'bom' in text.lower():"


Existe


In [None]:
# Além de verificar as condicionais, podemos segmentar uma string. O trabalho que o regex faz aqui é chamado de tokenização, em que a string é separa em substrings com base em padrões.
# A tokenização (tokenizing) é uma atividade central no processamento de linguagem natural. 

# As funções findall e split analisarão a string para nóse retornarão pedaços. 
# EXEMPLO: 
texto = 'Amy trabalha diligentemente. Amy tira boas notas. Nossa aluna Amy é bem-sucedida.'

# Vamos dividir isso em todas as instâncias de Amy.
re.split('Amy', texto)

# Também dá para fazer da seguinte forma: "texto.split('Amy')"

['',
 ' trabalha diligentemente. ',
 ' tira boas notas. Nossa aluna ',
 ' é bem-sucedida.']

In [22]:
# Perceba que o split() retornou uma str vazia seguida por várias declarações sobre Amy, todas como elementos de uma lista.
# Se quiséssemos contar quantas vezes falamos sobre Amy, poderíamos usar findall().

re.findall('Amy', texto)

# Também é possível usa o count() como "texto.count('Amy')". A Diferença é que com 'count()' será mostrado um número de vezes ao invés de uma lista com as repetidas frases.


['Amy', 'Amy', 'Amy']

In [None]:
# Procurar números em um texto
texto = "O aluno tirou 750 no GRE e 105 no TOEFL"

numeros = re.findall(r'\d+', texto)
print(numeros)

# ATENÇÃO: O 'r' antes equivale a dizer para o Python não tentar interpretar o \d (isso evita bugs). Por exemplo, se fosse '\n' o Python pula a linha, porém se tiver r'\n, ele não pula a linha (se fosse dentro de um print, ele imprimiria na tela o '\n').

['750', '105']


Vimos que o .search() procura por algum padrão e retorna um booleano. <br>
O split() usará um padrão para criar um lista de substrings. <br> 
E esse findall() procurará um padrão e retirará todas as ocorrências. 

#### Padrões mais complexos

In [26]:
# O padrão de especificação regex define uma linguagem de marcação para descrever padrões no texto.
 
# Vamos começar com âncoras, pois elas especificam o início e/ou o fim da string que você está tentando combinar. O caractere '^' significa início e o caractere '$' significa o fim. 
# Se você colocar o cursor antes de uma string, isso significa que o texto que o processador regex recupera deve começar com a string que você especificar. 
# Para finalizar, você deve colocar o caractere '$' após a string. Isso significa que o texto recuperado pelo regex deve terminar com a string que você especificar. 

# EXEMPLO:
texto = 'Amy trabalha diligentemente. Amy tira boas notas. Nossa aluna Amy é bem-sucedida.'

# Vamos ver se isso começa com 'Amy'. 
re.search('^Amy',texto)


<re.Match object; span=(0, 3), match='Amy'>

Perceba que o search() retornou para nós um novo objeto chamado "Match object". Esse objeto sempre tem um valor booleano verdadeiro quando algo foi encontrado. Portanto, você sempre pode avaliá-lo em uma declaração "if", como foi feito anteriormente. <br>
A renderização do objeto de correspondência também informa qual padrão foi correspondido. Nesse caso, a palavra 'Amy' e o local em que a correspondência estava.

#### Símbolos mais comuns

| Regex | Significado |
|------|------------|
| `.`  | Qualquer caractere |
| `\d` | Dígito (0–9) |
| `\w` | Letra ou número |
| `+`  | Uma ou mais vezes |
| `*`  | Zero ou mais |
| `?`  | Zero ou uma |
| `^`  | Início da string |
| `$`  | Final da string |
| `[abc]` | Um dos caracteres |
| `[0-9]` | Intervalo |
