In [1]:
# Pacote de regex no Python:
import re

| Método | Descrição  |
|:----------:|:------------------:|
| re.match()    | Determina se a expressão regular combina com o início da string. Retorna a posição da string buscada. |
| re.search()   | Varre toda a string, procurando o primeiro local onde esta expressão regular tem correspondência. Retorna a posição da string buscada. |
| re.findall()  | Encontra todas as substrings onde a expressão regular corresponde, e as retorna como uma lista. Retrona uma lista com as strings encontradas. |
| re.finditer() | Encontra todas as substrings onde a expressão regular corresponde, e as retorna como um iterador. |
| re.sub() | Encontra o padrão e faz substituições |

## Básico
### Match

In [2]:
string = "frase que será analisada pelo regex porque regex é legal e útil"

In [3]:
re.match('frase', string)

<_sre.SRE_Match object; span=(0, 5), match='frase'>

In [4]:
re.match('regex', string)

### Search

In [5]:
re.search('frase', string)

<_sre.SRE_Match object; span=(0, 5), match='frase'>

In [6]:
re.search('regex', string)

<_sre.SRE_Match object; span=(30, 35), match='regex'>

### Findall

In [7]:
re.findall('regex', string)

['regex', 'regex']

In [8]:
re.findall('que', string)

['que', 'que']

In [9]:
re.findall('frase', string)

['frase']

### Finditer

In [10]:
re.finditer('regex', string)

<callable_iterator at 0x7f3923804470>

In [11]:
for i in re.finditer('regex', string):
    print(i)

<_sre.SRE_Match object; span=(30, 35), match='regex'>
<_sre.SRE_Match object; span=(43, 48), match='regex'>


In [12]:
re.finditer('analisada', string)

<callable_iterator at 0x7f39238049e8>

In [13]:
for i in re.finditer('analisada', string):
    print(i)

<_sre.SRE_Match object; span=(15, 24), match='analisada'>


### Sub

In [14]:
re.sub('analisada', 'avaliada', string)

'frase que será avaliada pelo regex porque regex é legal e útil'

In [31]:
string = 'naiara gosta de banana mas naiara não gosta de quiabo'

re.sub('naiara','pedro',string)

'pedro gosta de banana mas pedro não gosta de quiabo'

## Interessantes

| Padrão | Significado |
|:------:|:-------:|
| ^ | Nega a expressão OU marca o início de uma string |
| $ | Marca o final de uma string |
| + | Prolonga o caractere anterior |
| * | Prolonga o caractere anterior, mas ele também pode não existir |
| ? | Diz que há dúvida se o caractere anterior a ele existe |
| . | Substitui qualquer caractere (apenas um) |
| [A-Z] | Procura qualquer caractere maiúsculo de **A** a **Z** |
| [a-z] | Procura qualquer caractere minúsculo de **a** a **z** |
| [0-9] | Procura qualquer dígito de **1** a **9** |
| [125] | Procura os dígitos **1**, **2** ou **5** |
| [^0-9] | O **^** nega a expressão a seguir, logo, procura tudo que não for número.
| [abc] | Procura os caracteres **a**, **b** ou **c** |
| [^A-Z] | Procura tudo que não for letra maiúscula |
| [a-zA-Z] | Procura tudo que for letra |
| \s | Procura espaços |
| \w | Procura caracteres, exceto os especiais |
| \d | Também procura qualquer dígito de **1** a **9** |

In [15]:
lista = [ 'www.google.com', 'https://www.google.com', 'google.com.br' ]

In [16]:
for string in lista:
    print(re.search("^www", string))

<_sre.SRE_Match object; span=(0, 3), match='www'>
None
None


In [17]:
for string in lista:
    print(re.search("com$", string))

<_sre.SRE_Match object; span=(11, 14), match='com'>
<_sre.SRE_Match object; span=(19, 22), match='com'>
None


In [18]:
lista = [ 'naiara', 'naiaraaaaaa', 'naaaaaaiara', 'naiar', 'naiars' ]

for string in lista:
    print(re.search("naiar.", string))

<_sre.SRE_Match object; span=(0, 6), match='naiara'>
<_sre.SRE_Match object; span=(0, 6), match='naiara'>
None
None
<_sre.SRE_Match object; span=(0, 6), match='naiars'>


In [19]:
for string in lista:
    print(re.search("naiara?", string))

<_sre.SRE_Match object; span=(0, 6), match='naiara'>
<_sre.SRE_Match object; span=(0, 6), match='naiara'>
None
<_sre.SRE_Match object; span=(0, 5), match='naiar'>
<_sre.SRE_Match object; span=(0, 5), match='naiar'>


In [20]:
for string in lista:
    print(re.search("naiara+", string))

<_sre.SRE_Match object; span=(0, 6), match='naiara'>
<_sre.SRE_Match object; span=(0, 11), match='naiaraaaaaa'>
None
None
None


In [21]:
string = 'essa é uma frase com espaços demais no final.                    '

re.sub("\s+$", "", string)

'essa é uma frase com espaços demais no final.'

In [22]:
string = "A história do PLN começou na década de 1950, quando Alan Turing publicou o artigo Computing Machinery and Intelligence, que propunha o que agora é chamado de teste de Turing como critério de inteligência. Em 1954, a experiência de Georgetown envolveu a tradução automática de mais de sessenta frases russas para o inglês. Os autores afirmaram que dentro de três ou cinco anos a tradução automática seria um problema resolvido.[2] No entanto, os avanços reais foram muito mais lentos do que o previsto e, após o relatório ALPAC em 1966, que constatou que a pesquisa de dez anos não conseguiu satisfazer as expectativas, o financiamento para este estudo em tradução automática foi reduzido drasticamente. Poucas pesquisas em tradução automática foram conduzidas até o final dos anos 80, quando os primeiros sistemas estatísticos de tradução foram desenvolvidos."

In [23]:
re.findall('[A-Z]',string)

['A',
 'P',
 'L',
 'N',
 'A',
 'T',
 'C',
 'M',
 'I',
 'T',
 'E',
 'G',
 'O',
 'N',
 'A',
 'L',
 'P',
 'A',
 'C',
 'P']

In [24]:
re.findall('[0-9]',string)

['1', '9', '5', '0', '1', '9', '5', '4', '2', '1', '9', '6', '6', '8', '0']

In [25]:
re.findall('[0-9]+',string)

['1950', '1954', '2', '1966', '80']

In [26]:
string = 'ABCDEFabcdef_123450&%@#!'

re.findall('\w',string)

['A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 '_',
 '1',
 '2',
 '3',
 '4',
 '5',
 '0']

In [27]:
string = '[codigo] titulo'

re.findall("\[.*\]", string)

['[codigo]']

In [28]:
string = '[codigo] titulo'

re.findall("\[(.*)\]", string)

['codigo']

## Bônus

In [29]:
data = "28/11/2020"

In [30]:
re.sub(r"(..)/(..)/(....)",r"\3-\2-\1", data)

'2020-11-28'