# Expressões regulares em Python

referência: https://medium.com/pyladiesbh/regex-b%C3%A1sico-em-python-31dcb7fac046

## Comandos básicos
**re.match**: determina se a expressão regular combina com o início da string. Retorna a posição da string buscada.

**re.search**: varre toda a string, procurando o primeiro local onde esta expressão regular tem correspondência. Retorna a posição da string buscada.

**re.findall**: encontra todas as substrings que têm correspondência com a expressão regular, e as retorna como uma lista. Retorna uma lista com as strings encontradas.

**re.finditer**: encontra todas as substrings que têm correspondência com a expressão regular, e as retorna como um iterador.

**re.sub**: procura onde esta expressão regular tem correspondência e faz as substituições desejadas. Retorna a string com a substituição realizada.


In [2]:
# Biblioteca usada
import re

In [3]:
string = "frase que será analisada pelo regex porque regex é legal e útil"
re.match("frase",string)

<re.Match object; span=(0, 5), match='frase'>

In [4]:
re.match("regex",string)

In [5]:
re.search("frase",string)

<re.Match object; span=(0, 5), match='frase'>

In [6]:
re.findall("que", string)

['que', 'que']

In [7]:
re.finditer("regex",string)

<callable_iterator at 0x262e70b79d0>

In [8]:
for i in re.finditer("regex",string):
    print(i)

<re.Match object; span=(30, 35), match='regex'>
<re.Match object; span=(43, 48), match='regex'>


In [9]:
re.sub("analisada","avaliada",string)

'frase que será avaliada pelo regex porque regex é legal e útil'

In [11]:
# Padrões
lista = ["www.google.com", "https://www.google.com", "google.com.br"]
for string in lista:
    print(re.search("^www", string))

<re.Match object; span=(0, 3), match='www'>
None
None


In [12]:
for string in lista:
    print(re.search("com$", string))

<re.Match object; span=(11, 14), match='com'>
<re.Match object; span=(19, 22), match='com'>
None


In [13]:
lista= [ 'naiara', 'naiaraaaaaa', 'naaaaaaiara', 'naiar', 'naiars' ]
for string in lista:
    print(re.search("naiar.", string))

<re.Match object; span=(0, 6), match='naiara'>
<re.Match object; span=(0, 6), match='naiara'>
None
None
<re.Match object; span=(0, 6), match='naiars'>


In [14]:
for string in lista:
    print(re.search("naiara?", string))

<re.Match object; span=(0, 6), match='naiara'>
<re.Match object; span=(0, 6), match='naiara'>
None
<re.Match object; span=(0, 5), match='naiar'>
<re.Match object; span=(0, 5), match='naiar'>


In [15]:
for string in lista:
    print(re.search("naiara+", string))

<re.Match object; span=(0, 6), match='naiara'>
<re.Match object; span=(0, 11), match='naiaraaaaaa'>
None
None
None


In [18]:
string = "essa é uma frase com espaos demais no final    "
re.sub("\s+$", "", string)

  re.sub("\s+$", "", string)


'essa é uma frase com espaos demais no final'

In [19]:
string = "A história do PLN começou na década de 1950, quando Alan Turing publicou o artigo Computing Machinery and Intelligence, que propunha o que agora é chamado de teste de Turing como critério de inteligência. Em 1954, a experiência de Georgetown envolveu a tradução automática de mais de sessenta frases russas para o inglês. Os autores afirmaram que dentro de três ou cinco anos a tradução automática seria um problema resolvido.[2] No entanto, os avanços reais foram muito mais lentos do que o previsto e, após o relatório ALPAC em 1966, que constatou que a pesquisa de dez anos não conseguiu satisfazer as expectativas, o financiamento para este estudo em tradução automática foi reduzido drasticamente. Poucas pesquisas em tradução automática foram conduzidas até o final dos anos 80, quando os primeiros sistemas estatísticos de tradução foram desenvolvidos."

In [21]:
# Listar todas as letras maiúsculas
re.findall("[A-Z]", string)

['A',
 'P',
 'L',
 'N',
 'A',
 'T',
 'C',
 'M',
 'I',
 'T',
 'E',
 'G',
 'O',
 'N',
 'A',
 'L',
 'P',
 'A',
 'C',
 'P']

In [22]:
# Lista todos os caracteres numericos
re.findall("[0-9]+", string)

['1950', '1954', '2', '1966', '80']

In [24]:
string = 'ABCDEFabcdef_123450&%@#!'
re.findall("\w", string) # Lista todos os caracteres não especiais

  re.findall("\w", string) # Lista todos os caracteres não especiais


['A',
 'B',
 'C',
 'D',
 'E',
 'F',
 'a',
 'b',
 'c',
 'd',
 'e',
 'f',
 '_',
 '1',
 '2',
 '3',
 '4',
 '5',
 '0']

In [26]:
string = "[codigo] string"
re.findall("\[(.*)\]", string) # Lista todos os caracteres entre colchetes

  re.findall("\[(.*)\]", string) # Lista todos os caracteres entre colchetes


['codigo']

In [27]:
# Bonus
data = "28/11/2020"
re.sub(r"(..)/(..)/(....)", r"\3-\2-\1", data) # Troca a data para o formato ano-mes-dia

'2020-11-28'