## Operadores

- ‘[ ]’ —> conjunto de caracteres
- \ —> sequência especial de caracteres
- ^ —> buscar elementos no início de uma string
- $ —> buscar elementos no final de uma string
- '*' —> buscar zero ou mais repeticoes dentro de uma substring
- '+' —> buscar zero ou mais repetições de uma substring —> agrupa até ser interrompido por outro caractere
- ? —> zero ou uma aparição —> é utilizado após os caractere
- {} —> quantidade específica de caracteres
- '[^]' —> diferente de um caractere especificado logo após o ^
- ( )  —> apenas para agrupar regrar e definir ordem de aplicação (igual matemática)

## Especificando caracteres

- . —> qualquer caractere
- \d —> qualquer dígito
- \D —> não é dígito
- \w —> qualquer alfanumérico
- \W —> não é alfanumérico
- \s —> espaço em branco
- \S —> não é espaço em branco

In [1]:
import re

str = 'an example word:cat!!'
match = re.search(r'word:\w\w\w', str)
# If-statement after search() tests if it succeeded
if match:
  print('found', match.group()) ## 'found word:cat'
else:
  print('did not find')

found word:cat


In [2]:
str = 'an exemple word:dog!!'
match = re.search(r'word:\w\w\w', str)   # especifica o pattern e a variável a ser analisada  --> re.search(pat, str)
if match:
    print(f'match {match.group()}')   # found word:dog
else:
    print("didn't find")
    

match word:dog


In [3]:
  ## Search for pattern 'iii' in string 'piiig'.
  ## All of the pattern must match, but it may appear anywhere.
  ## On success, match.group() is matched text.
  match = re.search(r'iii', 'piiig') # found, match.group() == "iii"
  match = re.search(r'igs', 'piiig') # not found, match == None

  ## . = any char but \n
  match = re.search(r'..g', 'piiig') # found, match.group() == "iig"

  ## \d = digit char, \w = word char
  match = re.search(r'\d\d\d', 'p123g') # found, match.group() == "123"
  match = re.search(r'\w\w\w', '@@abcd!!') # found, match.group() == "abc"

In [4]:
texto = 'Eu amo comida comida comida'
padrao = re.compile("comida")   # estabelece padrão
resultado = re.findall(padrao, texto)   # lista com as correspondências
display(resultado)
display(len(resultado))

['comida', 'comida', 'comida']

3

In [5]:
texto = 'Eu amo comida comida comida'
padrao = re.compile("comida")   # estabelece padrão
resultado = re.search(padrao, texto)   # lista com as correspondências
display(resultado)   # objeto + primeira posição(x1,x2)

<re.Match object; span=(7, 13), match='comida'>

In [6]:
# para caracteres especiais, como '$' 
# é necessário utilizar uma contra-barra antes do caractere especial para buscar pelo caractere em si

texto = '1$ 2$ 3$ 4$ 5$'
padrao = re.compile(r"\$")
resultado = re.findall(padrao, texto)
print(f'Há {len(resultado)} cifrões')

Há 5 cifrões


### É recomendável utilizar raw strings —> r’  ’ Evita execução de comandos indesejados

## Buscando números

In [7]:
str = 'Gabriel tem 18 anos. Pedro tem 18 anos. Mathias tem 16 anos. Gentil tem 990 anos'

padrao = re.compile(r'\d+')
analise = re.findall(padrao, str)
print(analise, len(analise))

['18', '18', '16', '990'] 4


In [8]:
str_float = 'Cordas custam R$37,98. Teclados custam R$99.87. Garrafas custam R$02,98. E eu tenho 18 anos'

padrao = re.compile(r'\d+,\d+')   # pega todos os números com decimais com ','
analise = re.findall(padrao, str_float)
print(f'{analise} --> foram encontrados {len(analise)} números')

['37,98', '02,98'] --> foram encontrados 2 números


In [9]:
str_float = 'Cordas custam R$37,98. Teclados custam R$99.87. Garrafas custam R$02,98. E eu tenho 18 anos'

padrao = re.compile(r'\d+[^,]\d+')   # pega todos os números com decimais com ' . ' em vez de ' , '
analise = re.findall(padrao, str_float)
print(f'{analise} --> foram encontrados {len(analise)} números')

['99.87'] --> foram encontrados 1 números


In [10]:
str_float = 'Cordas custam R$37,98. Teclados custam R$99.87. Garrafas custam R$02,98. E eu tenho 18 anos'

padrao = re.compile(r'\d+,?[^,]?\d+')   # pega todos os números presentes
analise = re.findall(padrao, str_float)
print(f'{analise} --> foram encontrados {len(analise)} números')

['37,98', '99.87', '02,98', '18'] --> foram encontrados 4 números


In [11]:
str_nome = 'Gabriel 0123i12 Souza Borges 0123i12 NOme: aso:'
pattern = re.compile(r'(\w+):')
analise = re.findall(pattern, str_nome)   # analise é uma lista que só contem o que foi especificado dentro de ( )
print(analise)

['NOme', 'aso']


In [12]:
str_nome = 'Gabriel 0123i12 Souza Borges 0123i12 NOme:Gabriel aso:182'
pattern = re.compile(r'\w+:(\w+)')   # sequencia de alfanuméricos após ':' \w:(\w+) 
analise = re.findall(pattern, str_nome)   # analise é uma lista que só contem o que foi especificado dentro de ( )
print(analise)   # nesse caso, analise é uma lista que contem uma sequência de caracteres depois de ':'

['Gabriel', '182']


### Buscando por CPF

In [13]:
str_cpf = r'Nome: Gabriel Sobrenome: Borges CPF:00032112389'
pattern = re.compile(r'\w+:\s*(\d{11})')

analise = re.findall(pattern, str_cpf)
print(analise)   # busca por CPF --> \s* para lidar com espaços

['00032112389']


In [14]:
str_ml = 'Leite: (330 ml)  Água: (500ml)  Café: (100ml)'

pattern = re.compile(r'\(\d+\s?ml\)')  # buscando pelo caractere '(' e ')' 
analise = re.findall(pattern, str_ml)
print(analise)

['(330 ml)', '(500ml)', '(100ml)']


In [15]:
precos = 'Mouse = R$ 80.93  Teclado = R$ 98,93 Fone = R$98.43  papel = R$5'

analise = re.findall(re.compile(r'R\$\s?(\d+,?[^,]?\d*)'), precos)  #   --> R$ + espaço ou não + sequência de dígitos + , ou . + um ou mais dígitos
print(analise)

['80.93', '98,93', '98.43', '5']


In [16]:
nomes = 'Fulano Ciclano Beltrano 123asd43'

analise = re.findall(r'[a-zA-Z]+', nomes)   # pegando textos e especificando intervalo de caracteres sem incluir dígitos
print(analise)

['Fulano', 'Ciclano', 'Beltrano', 'asd']


In [17]:
sites = """
google.com  
https://www.facebook.com  
http://www.ecomp.poli.br  
www.instagram.com/user
https://prefeiturarecife.gov.br
www.python.org

lorem ipsum kda rtema
sdasf
fasfasd

"""

analise = re.finditer(r'(https?://)?(www.)?\w+.(com|com.br|org|poli.br|gov.br)', sites)

for item in analise:

    print(item)   # ou item.group para valores

<re.Match object; span=(1, 11), match='google.com'>
<re.Match object; span=(14, 38), match='https://www.facebook.com'>
<re.Match object; span=(41, 65), match='http://www.ecomp.poli.br'>
<re.Match object; span=(68, 85), match='www.instagram.com'>
<re.Match object; span=(91, 122), match='https://prefeiturarecife.gov.br'>
<re.Match object; span=(123, 137), match='www.python.org'>


In [2]:
import re
sites = """
google.com  
https://www.facebook.com  
http://www.ecomp.poli.br  
www.instagram.com/user
https://prefeiturarecife.gov.br
www.python.org

lorem ipsum kda rtema
sdasf
fasfasd

"""

analise = re.finditer(r'(https?://)?(www.)?\w+.(com|com.br|org|poli.br|gov.br)', sites)

for item in analise:
    print(item.group())

google.com
https://www.facebook.com
http://www.ecomp.poli.br
www.instagram.com
https://prefeiturarecife.gov.br
www.python.org
