# Sumário
**1 [Caracteres](#S1)  
2 [Conjuntos](#S2)  
3 [Quantificadores](#S3)  
4 [Grupos](#S4)  
5 [Bordas](#S5)  
6 [Receitas]** 

In [1]:
import re

<a id="S1"></a>
# 1. Caracteres

### Meta-caracter .

In [52]:
texto = '1,2,3,4,5,6,7,8,9'

print(re.findall('1.2', texto, flags=re.I))
print(re.findall('1..2', texto, flags=re.I))
print(re.findall('1..,', texto, flags=re.I))
print('------------------')
notas = '8.3,7.1,8.8,10.0'
print(re.findall('8..', notas, flags=re.I))
print(re.findall('.\..', notas, flags=re.I))
print('------------------')
texto = 'lista de arquivos mp3: jazz.mp3, rocky.mp3, podcast.mp3, blues.mp3'
print(re.findall('\.mp3', texto, flags=re.I))


['1,2']
[]
['1,2,']
------------------
['8.3', '8.8']
['8.3', '7.1', '8.8', '0.0']
------------------
['.mp3', '.mp3', '.mp3', '.mp3']


### Caractere brancos

In [73]:
texto = """
ca	r
r	o s!
"""
    
print(re.findall("ca\tr\nr\to\ss!", texto, flags=re.I))

['ca\tr\nr\to s!']


In [78]:
texto = 'a   b'
    
print(re.findall('a\s\s\sb', texto, flags=re.I))
print(re.findall('a\s+b', texto, flags=re.I))
print(re.findall('a {3}b', texto, flags=re.I))
print(re.findall('a\s{3}b', texto, flags=re.I))

['a   b']
['a   b']
['a   b']
['a   b']


### Meta-caracteres:Pipe(Ou)

In [79]:
texto = 'voccê precisa responder sim, não ou não sei'

re.findall('sim|não|sei', texto)

['sim', 'não', 'não', 'sei']

### Entendendo o problema com ponto


In [90]:
texto = 'Bom\ndia'
# O pnto não engloba o \n
print(re.findall('...', texto))
# Em python pode usar a flag abaixo
print(re.findall('.......', texto, flags=re.I|re.S))

['Bom', 'dia']
['Bom\ndia']


### [Unicode](https://unicode-table.com/pt/)  
Unicode é o padrão de codificação de caracteres  
Quantidade de bits variável e expansivel   
Suporta mais de 1.000.000 de caracteres


In [13]:
texto = 'øalfaµ'

print(re.findall('\u00B5|ø', texto))


['ø', 'µ']


<a id="S2"></a>
# 2. Conjuntos
Para definir uma classe ou conjunto de caracteres usas-e [ ]

In [18]:
texto = '1,2,3,4 av['
print(re.findall('[0123]', texto))
texto = 'Fábio não vai na moto com Flavio'
print(re.findall('n[aã]|F[ál]', texto))

['1', '2', '3']
['Fá', 'nã', 'na', 'Fl']


### Intervalos

In [23]:
texto = '1,2,3, ab,c,d[e] f'
print(re.findall('[A-Z]', texto, flags=re.I))
print(re.findall('[b-d]', texto,))
print(re.findall('[2-4]', texto,))
print(re.findall('[e-f1-3]', texto,))

['a', 'b', 'c', 'd', 'e', 'f']
['b', 'c', 'd']
['2', '3']
['1', '2', '3', 'e', 'f']


### Conjuntos e Meta-caracteres

In [27]:
texto = '.$+*?-'
print(re.findall('[.$+*?-]', texto)) # Não precisa de escape dentro do conjunto, exceto alguns caracteres
print(re.findall('[$-?]', texto)) #  Aceita intervalo

# Não é intervalo
print(re.findall('[$\-?]', texto))
print(re.findall('[-$?]', texto))

['.', '$', '+', '*', '?', '-']
['.', '$', '+', '*', '?', '-']
['$', '?', '-']
['$', '?', '-']


### Alguns cuidados com intervalos
Os intervalos usam a ordem da tabela unicode <https://unicode-table.com/pt/> 

In [7]:
texto = 'ABC [abc] a-c 1234'
print(re.findall('[a-c]', texto))
print(re.findall('a-c', texto))
print(re.findall('[A-z]', texto)) # Entre A-z existe outros elementos, ver tabela unicode
print(re.findall('[a-zA-Z]', texto))
# Errado 
 # print(re.findall('[a-Z]', texto)) A ordem do conjunto está incorreta
 # print(re.findall('[4-1]', texto))

['a', 'b', 'c', 'a', 'c']
['a-c']
['A', 'B', 'C', '[', 'a', 'b', 'c', ']', 'a', 'c']
['A', 'B', 'C', 'a', 'b', 'c', 'a', 'c']


### Shortshands

In [16]:
texto = """1,2,3,4,5,6,a,b c!d?e\r	
f_g
"""

print(re.findall('\d',texto)) # Números [0-9]
print(re.findall('\D',texto)) # Não números [^0-9]
print()
print(re.findall('\w',texto)) # Caracteres [a-zA-Z0-9_]
print(re.findall('\W',texto)) # Não caracteres [^a-zA-Z0-9_]
print()
print(re.findall('\s',texto)) # espaço [\t\n\r\f]
print(re.findall('\S',texto)) # Não espaço [^\t\n\r\f]

['1', '2', '3', '4', '5', '6']
[',', ',', ',', ',', ',', ',', 'a', ',', 'b', ' ', 'c', '!', 'd', '?', 'e', '\r', '\t', '\n', 'f', '_', 'g', '\n']

['1', '2', '3', '4', '5', '6', 'a', 'b', 'c', 'd', 'e', 'f', '_', 'g']
[',', ',', ',', ',', ',', ',', ',', ' ', '!', '?', '\r', '\t', '\n', '\n']

[' ', '\r', '\t', '\n', '\n']
['1', ',', '2', ',', '3', ',', '4', ',', '5', ',', '6', ',', 'a', ',', 'b', 'c', '!', 'd', '?', 'e', 'f', '_', 'g']


### Conjuntos negados

In [31]:
texto = '1,2,3,a.b c!d?e[f'
print(re.findall('\D',texto)) # Não números [^0-9]
print(re.findall('[^0-9]',texto)) # Não números [^0-9]
print(re.findall('[^\d!\?\[\s,.]',texto))
texto = '1: !"#$&\'()*+,-./ 2:;<=>?@'
print()
print(re.findall('[^!-/:-@\s]',texto)) # !-/, :-@ são intervalos ver tabela unicode


[',', ',', ',', 'a', '.', 'b', ' ', 'c', '!', 'd', '?', 'e', '[', 'f']
[',', ',', ',', 'a', '.', 'b', ' ', 'c', '!', 'd', '?', 'e', '[', 'f']
['a', 'b', 'c', 'd', 'e', 'f']

['1', '2']


### Seleção de intervalos Unicode 

In [38]:
texto = 'áéíóú àèìòù âêîôû ç ãõ ü' 
print(re.findall('[à-ü]',texto))
print(re.findall('[À-ü]',texto))

['á', 'é', 'í', 'ó', 'ú', 'à', 'è', 'ì', 'ò', 'ù', 'â', 'ê', 'î', 'ô', 'û', 'ç', 'ã', 'õ', 'ü']
['á', 'é', 'í', 'ó', 'ú', 'à', 'è', 'ì', 'ò', 'ù', 'â', 'ê', 'î', 'ô', 'û', 'ç', 'ã', 'õ', 'ü']


<a id="S3"></a>
# 3. Quantificadores
     
<span style="color:#f6060">Metacaracteres - Quantificadores: </spann>   


| Metacaracteres | Nome | Significado |
| -------------- | ---- | ----------- |
| ? | Opcional | Zero ou um |
| * | Asterisco | Zero ou mais |
| + | Mais | Um ou mais |
|{n,m} | Chaves | De n até m |


### Zero ou um (opecional) "**?**"

In [6]:
texto1 = 'Delonge eu avistei o fogo e uma pessoal gritando: FOGOOOOO!'
texto2= 'There is a big fog in NYC'
print(re.findall('fogo?' ,texto1, re.I))
print(re.findall('fogo?' ,texto2, re.I))

['fogo', 'FOGO']
['fog']


### Um ou mais "**+**"

In [18]:
texto1 = 'Delonge eu avistei o fogo e uma pessoal gritando: FOGOOOOO!'
texto2= 'There is a big fog in NYC'
print(re.findall('fogo+' ,texto1, re.I))
print(re.findall('fogo+' ,texto2, re.I))
print()
texto3 = '5123456789. 456'
print(re.findall('[0-9]' ,texto3, re.I))
print(re.findall('[0-9]+' ,texto3, re.I))

['fogo', 'FOGOOOOO']
[]

['5', '1', '2', '3', '4', '5', '6', '7', '8', '9', '4', '5', '6']
['5123456789', '456']


### Zero ou mais <b>"*"</b>

In [19]:
texto1 = 'Delonge eu avistei o fogo e uma pessoal gritando: FOGOOOOO!'
texto2= 'There is a big fog in NYC'
print(re.findall('fogo*' ,texto1, re.I))
print(re.findall('fogo*' ,texto2, re.I))

['fogo', 'FOGOOOOO']
['fog']


### Usando chaves {}

In [15]:
texto = 'O João recebeu 120 milhões apostando 6 9 21 23 45 46.'
print(re.findall('\d{1,2}' ,texto, re.I))
print(re.findall('[0-9]{2}' ,texto, re.I))
print(re.findall('\d{1,}' ,texto, re.I))
print(re.findall('\d+' ,texto, re.I))
print()
print(re.findall('\w+' ,texto, re.I))
print(re.findall('\w{7}' ,texto, re.I))
print(re.findall(r'[\w]{7,}' ,texto, re.I))
print(re.findall(r'[\wãõ]{7,}' ,texto, re.I)) # Em outras linguagens será necessario adicionar "ãõ" 

['12', '0', '6', '9', '21', '23', '45', '46']
['12', '21', '23', '45', '46']
['120', '6', '9', '21', '23', '45', '46']
['120', '6', '9', '21', '23', '45', '46']

['O', 'João', 'recebeu', '120', 'milhões', 'apostando', '6', '9', '21', '23', '45', '46']
['recebeu', 'milhões', 'apostan']
['recebeu', 'milhões', 'apostando']
['recebeu', 'milhões', 'apostando']


### Gusolo vs não guloso

In [49]:
texto = '<div>Conteudo 01</div><div>Conteudo 02</div>asb,cd!'
# Guloso
print(re.findall('<div>.+</div>', texto))
print(re.findall('<div>.*</div>', texto))
print(re.findall('<div>.{0,100}</div>', texto))

['<div>Conteudo 01</div><div>Conteudo 02</div>']
['<div>Conteudo 01</div><div>Conteudo 02</div>']
['<div>Conteudo 01</div><div>Conteudo 02</div>']


Não guloso, ira ajudar a pegar cada conteudo separadamente

In [20]:
print(re.findall('<div>.+?</div>', texto))
print(re.findall('<div>.*?</div>', texto))
print(re.findall('<div>.{0,100}?</div>', texto))

['<div>Conteudo 01</div>', '<div>Conteudo 02</div>']
['<div>Conteudo 01</div>', '<div>Conteudo 02</div>']
['<div>Conteudo 01</div>', '<div>Conteudo 02</div>']


### Desafio CPF

In [69]:
texto ="""
CPF dos candidatos são:
 -052.353.825-10
 - 025.456.789-3
"""

print(re.findall('\d{3}\.\d{3}\.\d{3}-[0-9]{1,2}' ,texto))

['052.353.825-10', '025.456.789-3']


### Desafio Telefone

In [92]:
texto ="""
Telefones:
 (22) 99880-9088
 -9758-6941
 (21) 3214-5623
 (73)98845-9658
 885496321
"""

print(re.findall('\(?\d{0,2}\)?\s?\d{4,5}-?\d{4}', texto))
print(re.findall('\(?\d{2}\)? ?\d{4,5}-?\d{4}|\d{4,5}-?\d{4,5}', texto))

['(22) 99880-9088', '9758-6941', '(21) 3214-5623', '(73)98845-9658', ' 885496321']
['(22) 99880-9088', '9758-6941', '(21) 3214-5623', '(73)98845-9658', '885496321']


### Desafio Emails

In [7]:
texto="""
Os e-mails dos convidados são:
 - fabio1_freitas@hotmail.com
 - fulano@cod3r.com.br
 - raraiken@gmail.com
 - joao@empresa.info.br
 - maria_silva@registros.br
 - rafa.sampaio@yahoo.com
"""

print(re.findall('\w+\.?\w+\@\w+\.\w+\.?\w{0,5}', texto))
print(re.findall('[\w.]+\@\w+\.\w{2,4}\.?\w{0,5}', texto))

['fabio1_freitas@hotmail.com', 'fulano@cod3r.com.br', 'raraiken@gmail.com', 'joao@empresa.info.br', 'maria_silva@registros.br', 'rafa.sampaio@yahoo.com']
['fabio1_freitas@hotmail.com', 'fulano@cod3r.com.br', 'raraiken@gmail.com', 'joao@empresa.info.br', 'maria_silva@registros.br', 'rafa.sampaio@yahoo.com']


<a id="S4"></a>
# 3. Grupos

### Usando grupos

In [5]:
texto = 'José Simão é muito engraçado... heheheheheHE'
print(re.findall('((?:he)+)', texto, re.I))
matches = re.finditer('(he)+', texto, re.I)
[match.group() for match in matches]

['heheheheheHE']


['heheheheheHE']

In [69]:
texto = 'http://www.site.info www.escola.ninja.br google.com.ag'
print(re.findall('(http://)?(www\.)?\w+\.\w{2,}(\.\w{2})?', texto))

[('http://', 'www.', ''), ('', 'www.', '.br'), ('', '', '.ag')]


In [11]:
texto = "http://www.site.info www.escola.ninja.br google.com.ag"
print(re.findall('((?:http://)?(?:www\.)?\w+\.\w{2,}(?:\.\w{2})?)', texto, re.I))
matches = re.finditer(r"(http://)?(www\.)?\w+\.\w{2,}(\.\w{2})?", texto, re.MULTILINE)
[match.group() for match in matches]

['http://www.site.info', 'www.escola.ninja.br', 'google.com.ag']


['http://www.site.info', 'www.escola.ninja.br', 'google.com.ag']

### Grupos e retrovisores

In [69]:
texto = '<b>Destaque</b><strong>Forte</strong><div>Conteudo</div>'
matches = re.finditer(r'<(\w+)>.*</\1>', texto)
print([match.group() for match in matches])
print()
texto = 'Lentamente é mente muito lenta.'
matches = re.finditer(r'(lenta)(mente)', texto, re.I)
print([match.group() for match in matches])
matches = re.finditer(r'(lenta)(mente).*\2.*\1\.', texto, re.I)
print([match.group() for match in matches])
matches = re.finditer(r'(?:lenta)(mente).*\1', texto, re.I) # ?: não guarda na memoria o grupo
print([match.group() for match in matches])

['<b>Destaque</b>', '<strong>Forte</strong>', '<div>Conteudo</div>']

['Lentamente']
['Lentamente é mente muito lenta.']
['Lentamente é mente']


### Grupos aninhados

In [77]:
texto = 'supermercado hipermercado minimercado mercado'
matches = re.finditer('(super|hiper|mini)?mercado', texto)
print([match.group() for match in matches])
matches = re.finditer('((su|hi)per|mini)?mercado', texto)
print([match.group() for match in matches])

['supermercado', 'hipermercado', 'minimercado', 'mercado']
['supermercado', 'hipermercado', 'minimercado', 'mercado']


### Grupos cuidados!!

In [9]:
texto = 'Pedrinho (filho do Pedro Silva) e doutor do ABCabc'
matches = re.finditer('[(abc)]', texto) # Não é grupo
print([match.group() for match in matches])
matches = re.finditer('([abc])', texto) # É grupo, posso ter um conjunto dentro de um grupo
print([match.group() for match in matches])
matches = re.finditer('(abc)+', texto, re.I) 
print([match.group() for match in matches])

['(', 'a', ')', 'a', 'b', 'c']
['a', 'a', 'b', 'c']
['ABCabc']


### Grupos especiais 

In [12]:
texto = 'João é calmo, mas no transito fica nervoso'
matches = re.finditer('[\wÀ-ù]+', texto) # Não é grupo
print([match.group() for match in matches])

['João', 'é', 'calmo', 'mas', 'no', 'transito', 'fica', 'nervoso']


**Positive lookahead**

In [28]:
matches = re.finditer('[\wÀ-ù]+(?=,)', texto) # Encontra qualquer palavra que seja precedida de virgula
print([match.group() for match in matches])
matches = re.finditer('[\wÀ-ù]+(?=\.)', texto) # ... precedida de ponto
print([match.group() for match in matches])
matches = re.finditer('[\wÀ-ù]+(?=, mas)', texto) # Encontra qualquer palavra que seja precedida de virgula
print([match.group() for match in matches])

['calmo']
['nervoso']
['calmo']


**Negative lookahead**

In [37]:
matches = re.finditer(r'[\wÀ-ù]+\b(?!,)', texto) # Obs.: Em javascript ou PHP não pegaria o é 
print([match.group() for match in matches])
matches = re.finditer(r'[\wÀ-ù]+[\s\.](?!\,)', texto)
print([match.group() for match in matches])


['João', 'é', 'mas', 'no', 'transito', 'fica', 'nervoso']
['João ', 'é ', 'mas ', 'no ', 'transito ', 'fica ', 'nervoso.']


**Positive lookbehind**

In [38]:
texto = 'supermercado superação hiperMERCADO mercado'
matches = re.finditer('(?<=super)[\wÀ-ù]+', texto)
print([match.group() for match in matches])

['mercado', 'ação']


**Negative lookbehind**

In [43]:
texto = 'supermercado superação hiperMERCADO mercado'
matches = re.finditer('(?<!super)mercado', texto, re.I)
print([match.group() for match in matches])

['supermercado', 'superação', 'hiperMERCADO', 'mercado']


<div id="S5"></div>

# Bordas

In [41]:
texto = 'Romario era um excelente jogador\n, mas hoje é um político questionador'
print(re.findall('r', texto, re.I))
print(re.findall('^r', texto, re.I)) # ^ inicio da linha/string 
print(re.findall('r$', texto, re.I)) # $ fim da linha/string

print(re.findall('^r.*r$', texto, re.I)) # 
print(re.findall('^r.*r$', texto, re.I|re.M)) # 
print(re.findall('^r.*r$', texto, re.I|re.S)) # resolve o \n
print(re.findall('^r[\s\S]*r$', texto, re.I)) # resolve o \n

['R', 'r', 'r', 'r', 'r']
['R']
['r']
[]
['Romario era um excelente jogador']
['Romario era um excelente jogador\n, mas hoje é um político questionador']
['Romario era um excelente jogador\n, mas hoje é um político questionador']


### Multiline

In [84]:
texto = """
Leo é muito legal
Emanuel foi jogar em Sergipe
Bianca é casada com Habib
"""

print(re.findall('\n', texto))
print(re.findall(r"(^(?:\w).+$)", texto, re.M|re.I))
matches = re.finditer(regex, texto, re.M | re.I)
print([match.group() for match in matches])

['\n', '\n', '\n', '\n']
['Leo é muito legal', 'Emanuel foi jogar em Sergipe', 'Bianca é casada com Habib']
['Leo é muito legal', 'Emanuel foi jogar em Sergipe', 'Bianca é casada com Habib']


## Bordas de palavras

In [93]:
texto = 'dia diatonico diafragma media wikipedia bom_dia melodia radial'

print(re.findall(r'\bdia\w*', texto)) # dá match em palavra que iniciam com dia
print(re.findall(r'\w+dia\b', texto)) # 
print(re.findall(r'\bdia\b', texto)) # 
print(re.findall(r'\w+dia\w+', texto))

['dia', 'diatonico', 'diafragma']
['media', 'wikipedia', 'bom_dia', 'melodia']
['dia']
['radial']


**Acentos**. borda não é \w, e, sim [^A-Za-z0-9_] 

In [102]:
texto = 'dia diatônico diafragma, média wikipédia bom-dia melodia radial'

print(re.findall(r'\bdia\b', texto, re.A)) # a modifier: ascii. Force the escape sequences \w, \W, \b, \B, \d, \D, \s and \S to perform ASCII-only matching instead of full Unicode matching
matches = re.finditer(r'(\S*)?dia(\S*)?', texto, re.M | re.I)
print([match.group() for match in matches])
matches = re.finditer(r'([\wÀ-ú-]*)?dia([\wÀ-ú-]*)?', texto, re.M | re.I )
print([match.group() for match in matches])

['dia', 'dia', 'dia', 'dia']
['dia', 'diatônico', 'diafragma,', 'média', 'wikipédia', 'bom-dia', 'melodia', 'radial']
['dia', 'diatônico', 'diafragma', 'média', 'wikipédia', 'bom-dia', 'melodia', 'radial']


['dia', 'diatônico', 'diafragma', 'dia']
['média', 'wikipédia', 'melodia']
['dia', 'dia']
['radial']
