<center>
    <img src='RegEx.png'>
</center>

<center>
    <img src='https://imgs.xkcd.com/comics/regular_expressions.png'>
    <h6><b>Fonte:</b> https://imgs.xkcd.com/comics/regular_expressions.png</h6>
</center> 

In [1]:
#Importando nossos superpoderes
import re

<h1 style='color:#32c3ff'><b>O que são <i>Regular Expressions</i>?</b></h1>

<p> Em linhas gerais, <i>Regular Expressions</i> (temidas RegEx) são uma sequência de caracteres utilizados para encontrar padrões textuais. Ou seja, elas são <i>strings</i> cuja finalidade é encontrar um <i>match</i> numa informação textual. As RegEx são implementadas em diversas linguagens de programação. Porém, nós vamos eleger a implementação das RegEx em Python, pois é a linguagem de programação com a qual estamos trabalhando (e continuaremos assim).
    
<h2>Sintaxe</h2>
    
<p> A sintaxe das RegEx pode ser agrupada em grupos, baseados na função do caractere dentro da RegEx. Os principais grupos são:
    
<ul>
    <li><b>Literais:</b> os caracteres com a função mais simples numa RegEx. Eles <b>literalmente</b> procuram caracteres idênticos a eles.</li>
</ul>

In [2]:
#Procurando caracteres literais em um texto
texto = 'Olá, meu nome é Rogério!'

#Se usarmos a função `re.search()`, ela retorna um Match object que contém a substring correspondente e posição inicial e final dos caracteres na string principal 
re.search(r'Rogério', texto)

<re.Match object; span=(16, 23), match='Rogério'>

In [3]:
#Para retornarmos apenas a parte textual, temos que usar o método `.group()` no objeto re.Match
re.search(r'Rogério', texto).group()

'Rogério'

In [4]:
#Além do texto, podemos retornar a posição inicial e a final da nossa substring correspondente numa tupla.
re.search(r'Rogério', texto).span()

(16, 23)

In [5]:
#Podemos retornar, também, apenas a posição inicial da nossa substring
re.search(r'Rogério', texto).start()

16

In [6]:
#A posição final também pode ser retornada
re.search(r'Rogério', texto).end()

23

In [7]:
#Testando se a posição inicial REALMENTE é uma letra r maiúscula
texto[re.search(r'Rogério', texto).start()]

'R'

In [8]:
#Porém, não precisamos de RegEx apenas para verificar se uma sequência de caracteres é encontrada dentro de um texto, pois o método `in` resolve esse problema para a gente
'Rogério' in texto

True

<ul>
    <li><b>Metacaracteres:</b> eles costumam ter um significado mais amplo do que parecem. Por exemplo, o metacaractere <b>\d</b> não significa que procuraremos uma substring literal correspondente, mas que queremos retornar qualquer caractere numérico</li>
</ul>

In [9]:
texto = 'Esta página cita fontes confiáveis e independentes, mas que não cobrem todo o conteúdo (desde dezembro de 2012). Ajude a inserir referências. Conteúdo não verificável poderá ser removido.'

#Vamos procurar qualquer caractere numérico na string acima utilizando a função `re.search()`.
#É importante ter em mente que a função search lê a string da esquerda para a direita e retorna apenas o PRIMEIRO match.

re.search(r'\d', texto)

<re.Match object; span=(106, 107), match='2'>

In [10]:
#Se quisermos retornar TODOS os caracteres numéricos da nossa string, precisamos usar a função `re.findall()`

re.findall(r'\d', texto)

['2', '0', '1', '2']

In [11]:
#o metacaractere \D retorna os caracteres que não são dígitos
print(re.findall(r'\D', texto))

['E', 's', 't', 'a', ' ', 'p', 'á', 'g', 'i', 'n', 'a', ' ', 'c', 'i', 't', 'a', ' ', 'f', 'o', 'n', 't', 'e', 's', ' ', 'c', 'o', 'n', 'f', 'i', 'á', 'v', 'e', 'i', 's', ' ', 'e', ' ', 'i', 'n', 'd', 'e', 'p', 'e', 'n', 'd', 'e', 'n', 't', 'e', 's', ',', ' ', 'm', 'a', 's', ' ', 'q', 'u', 'e', ' ', 'n', 'ã', 'o', ' ', 'c', 'o', 'b', 'r', 'e', 'm', ' ', 't', 'o', 'd', 'o', ' ', 'o', ' ', 'c', 'o', 'n', 't', 'e', 'ú', 'd', 'o', ' ', '(', 'd', 'e', 's', 'd', 'e', ' ', 'd', 'e', 'z', 'e', 'm', 'b', 'r', 'o', ' ', 'd', 'e', ' ', ')', '.', ' ', 'A', 'j', 'u', 'd', 'e', ' ', 'a', ' ', 'i', 'n', 's', 'e', 'r', 'i', 'r', ' ', 'r', 'e', 'f', 'e', 'r', 'ê', 'n', 'c', 'i', 'a', 's', '.', ' ', 'C', 'o', 'n', 't', 'e', 'ú', 'd', 'o', ' ', 'n', 'ã', 'o', ' ', 'v', 'e', 'r', 'i', 'f', 'i', 'c', 'á', 'v', 'e', 'l', ' ', 'p', 'o', 'd', 'e', 'r', 'á', ' ', 's', 'e', 'r', ' ', 'r', 'e', 'm', 'o', 'v', 'i', 'd', 'o', '.']


In [12]:
#já o metacaractere \S retorna todos os caracteres que não são espaços em branco
print(re.findall(r'\S', texto))

['E', 's', 't', 'a', 'p', 'á', 'g', 'i', 'n', 'a', 'c', 'i', 't', 'a', 'f', 'o', 'n', 't', 'e', 's', 'c', 'o', 'n', 'f', 'i', 'á', 'v', 'e', 'i', 's', 'e', 'i', 'n', 'd', 'e', 'p', 'e', 'n', 'd', 'e', 'n', 't', 'e', 's', ',', 'm', 'a', 's', 'q', 'u', 'e', 'n', 'ã', 'o', 'c', 'o', 'b', 'r', 'e', 'm', 't', 'o', 'd', 'o', 'o', 'c', 'o', 'n', 't', 'e', 'ú', 'd', 'o', '(', 'd', 'e', 's', 'd', 'e', 'd', 'e', 'z', 'e', 'm', 'b', 'r', 'o', 'd', 'e', '2', '0', '1', '2', ')', '.', 'A', 'j', 'u', 'd', 'e', 'a', 'i', 'n', 's', 'e', 'r', 'i', 'r', 'r', 'e', 'f', 'e', 'r', 'ê', 'n', 'c', 'i', 'a', 's', '.', 'C', 'o', 'n', 't', 'e', 'ú', 'd', 'o', 'n', 'ã', 'o', 'v', 'e', 'r', 'i', 'f', 'i', 'c', 'á', 'v', 'e', 'l', 'p', 'o', 'd', 'e', 'r', 'á', 's', 'e', 'r', 'r', 'e', 'm', 'o', 'v', 'i', 'd', 'o', '.']


<p> Abaixo, temos uma lista de metacaracteres (perdoe-me por não ter traduzido, e não desistam de mim!)
    
<center>
    <img src='metacaracteres_lista.PNG'>
    </center>

<ul>
    <li><b>Barra Vertical:</b> é a implementação do operador lógico OU nas RegEx.</li>
</ul>

In [13]:
#Vamos usar a barra vertical para retornar todas as letras A maiúscula ou todas as letras e minúsculas
print(re.findall(r'A|e', texto))

['e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'A', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e', 'e']


<ul>
    <li><b>Quantificadores:</b> especificam a quantidade de caracteres que o padrão precisa encontrar.</li>
</ul>

Os principais quantificadores são:

Quantificador|Descrição|Exemplo
---|---|---
`*`|Retorna 0 ou mais repetições do padrão precedente| `ab*` retornará `a`, `ab` ou `ab...` seguido por um número infinito de letras b
`+`|Retorna 1 ou mais repetições do padrão precedente| `ab+` retornará `ab` ou `ab...` seguido por um número infinito de letras b
`?`|Retorna 0 ou 1 repetição do padrão precedente| `ab?` retornará `a` ou `ab` apenas
`{m}`|Especifica que o padrão precedente deve encontrar uma substring correspondente `m` vezes| `ab{2}` retornará apenas `abb`
`{m,n}`|Especifica que o padrão precedente deve encontrar uma substring correspondente no mínimo `m` vezes, mas não mais que `n` vezes| `ab{2,4}` retornará `abb`, `abbb` ou `abbbb`
`{m,n}?`|Aplica uma lógica restritiva ao quantificador descrito acima; assim, o padrão terá encontrar a menor substring possível|

In [14]:
#Vamos utilizar um quantificador que retorna no mínimo um caractere alfanumérico
print(re.findall(r'\w{1,}', texto))

['Esta', 'página', 'cita', 'fontes', 'confiáveis', 'e', 'independentes', 'mas', 'que', 'não', 'cobrem', 'todo', 'o', 'conteúdo', 'desde', 'dezembro', 'de', '2012', 'Ajude', 'a', 'inserir', 'referências', 'Conteúdo', 'não', 'verificável', 'poderá', 'ser', 'removido']


In [15]:
#Podemos escrever a mesma RegEx de maneira diferente
print(re.findall(r'\w+', texto))

['Esta', 'página', 'cita', 'fontes', 'confiáveis', 'e', 'independentes', 'mas', 'que', 'não', 'cobrem', 'todo', 'o', 'conteúdo', 'desde', 'dezembro', 'de', '2012', 'Ajude', 'a', 'inserir', 'referências', 'Conteúdo', 'não', 'verificável', 'poderá', 'ser', 'removido']


In [16]:
#Se usarmos o limitador '?', obtemos um resultado completamente diferente
print(re.findall(r'\w{1,}?', texto))

['E', 's', 't', 'a', 'p', 'á', 'g', 'i', 'n', 'a', 'c', 'i', 't', 'a', 'f', 'o', 'n', 't', 'e', 's', 'c', 'o', 'n', 'f', 'i', 'á', 'v', 'e', 'i', 's', 'e', 'i', 'n', 'd', 'e', 'p', 'e', 'n', 'd', 'e', 'n', 't', 'e', 's', 'm', 'a', 's', 'q', 'u', 'e', 'n', 'ã', 'o', 'c', 'o', 'b', 'r', 'e', 'm', 't', 'o', 'd', 'o', 'o', 'c', 'o', 'n', 't', 'e', 'ú', 'd', 'o', 'd', 'e', 's', 'd', 'e', 'd', 'e', 'z', 'e', 'm', 'b', 'r', 'o', 'd', 'e', '2', '0', '1', '2', 'A', 'j', 'u', 'd', 'e', 'a', 'i', 'n', 's', 'e', 'r', 'i', 'r', 'r', 'e', 'f', 'e', 'r', 'ê', 'n', 'c', 'i', 'a', 's', 'C', 'o', 'n', 't', 'e', 'ú', 'd', 'o', 'n', 'ã', 'o', 'v', 'e', 'r', 'i', 'f', 'i', 'c', 'á', 'v', 'e', 'l', 'p', 'o', 'd', 'e', 'r', 'á', 's', 'e', 'r', 'r', 'e', 'm', 'o', 'v', 'i', 'd', 'o']


In [17]:
print(re.findall(r'\w{2,}?', texto))

['Es', 'ta', 'pá', 'gi', 'na', 'ci', 'ta', 'fo', 'nt', 'es', 'co', 'nf', 'iá', 've', 'is', 'in', 'de', 'pe', 'nd', 'en', 'te', 'ma', 'qu', 'nã', 'co', 'br', 'em', 'to', 'do', 'co', 'nt', 'eú', 'do', 'de', 'sd', 'de', 'ze', 'mb', 'ro', 'de', '20', '12', 'Aj', 'ud', 'in', 'se', 'ri', 're', 'fe', 'rê', 'nc', 'ia', 'Co', 'nt', 'eú', 'do', 'nã', 've', 'ri', 'fi', 'cá', 've', 'po', 'de', 'rá', 'se', 're', 'mo', 'vi', 'do']


<ul>
    <li><b>Grupos de Captura:</b> parenteses podem ser usados para delimitar grupos de regex ou para capturar partes da substring.</li>
</ul>

In [18]:
#Vamos tentar retornar todos os emails da mensagem abaixo separando o usuário do domínio  do email
texto = 'Olá! Os nossos emails são rogerio.aguiar@ironhack.com, livia.clarete@ironhack.com e juliana.forlin@ironhack.com. Se você tiver qualquer dúvida, não hesite em entrar em contato'

re.findall(r'([\w.]+)@(\w+[.]\w+)', texto)

[('rogerio.aguiar', 'ironhack.com'),
 ('livia.clarete', 'ironhack.com'),
 ('juliana.forlin', 'ironhack.com')]

<p>Além das cinco classes funcionais já definidas, as RegEx nos permitem procurar ranges the caracteres alfanuméricos. Para isso, precisamos lançar mão da seguinte estrutura:

<center>
    <b>[caractere de menor order - caractere de maior ordem]</b> 
</center>

In [19]:
#Vamos retornar todos os emails usando ranges! Para isso, vou incluir no nosso text um email que contenha caracteres numéricos
texto = 'Olá! Os nossos emails são rogerio.aguiar@ironhack.com, livia.clarete@ironhack.com, juliana.forlin@ironhack.com e htinha1994@gmail.com. Abraços'

re.findall(r'([\w.]+)@(\w+[.]\w+)', texto)

[('rogerio.aguiar', 'ironhack.com'),
 ('livia.clarete', 'ironhack.com'),
 ('juliana.forlin', 'ironhack.com'),
 ('htinha1994', 'gmail.com')]

In [20]:
re.findall(r'([a-z.]+)@([a-z]+[.][a-z]+)', texto)

[('rogerio.aguiar', 'ironhack.com'),
 ('livia.clarete', 'ironhack.com'),
 ('juliana.forlin', 'ironhack.com')]

In [21]:
re.findall(r'([a-z0-9.]+)@([a-z0-9]+[.][a-z0-9]+)', texto)

[('rogerio.aguiar', 'ironhack.com'),
 ('livia.clarete', 'ironhack.com'),
 ('juliana.forlin', 'ironhack.com'),
 ('htinha1994', 'gmail.com')]

In [22]:
#Nós podemos nomear nossos grupos de captura! Para fazer isso, colocamos o nome do grupo entre < >
re.search(r'(?P<usuario>[a-z0-9.]+)@(?P<dominio>[a-z0-9]+[.][a-z0-9]+)', texto)

<re.Match object; span=(26, 53), match='rogerio.aguiar@ironhack.com'>

In [23]:
re.search(r'(?P<usuario>[a-z0-9.]+)@(?P<dominio>[a-z0-9]+[.][a-z0-9]+)', texto).group('usuario')

'rogerio.aguiar'

<h2 style='color:#32c3ff'><b>Treinando RegEx num Dataset Real</b></h2>

In [30]:
#Lendo um arquivo txt que contém uma série de emails fraudulentos
#Fonte: https://www.kaggle.com/rtatman/fraudulent-email-corpus

texto = []

with open('fradulent_emails.txt', 'r') as arquivo:
    for linha in arquivo.readlines():
        texto.append(linha.strip('\n'))

texto[:30]

['From r  Wed Oct 30 21:41:56 2002',
 'Return-Path: <james_ngola2002@maktoob.com>',
 'X-Sieve: cmu-sieve 2.0',
 'Return-Path: <james_ngola2002@maktoob.com>',
 'Message-Id: <200210310241.g9V2fNm6028281@cs.CU>',
 'From: "MR. JAMES NGOLA." <james_ngola2002@maktoob.com>',
 'Reply-To: james_ngola2002@maktoob.com',
 'To: webmaster@aclweb.org',
 'Date: Thu, 31 Oct 2002 02:38:20 +0000',
 'Subject: URGENT BUSINESS ASSISTANCE AND PARTNERSHIP',
 'X-Mailer: Microsoft Outlook Express 5.00.2919.6900 DM',
 'MIME-Version: 1.0',
 'Content-Type: text/plain; charset="us-ascii"',
 'Content-Transfer-Encoding: 8bit',
 'X-MIME-Autoconverted: from quoted-printable to 8bit by sideshowmel.si.UM id g9V2foW24311',
 'Status: O',
 '',
 'FROM:MR. JAMES NGOLA.',
 'CONFIDENTIAL TEL: 233-27-587908.',
 'E-MAIL: (james_ngola2002@maktoob.com).',
 '',
 'URGENT BUSINESS ASSISTANCE AND PARTNERSHIP.',
 '',
 '',
 'DEAR FRIEND,',
 '',
 'I AM ( DR.) JAMES NGOLA, THE PERSONAL ASSISTANCE TO THE LATE CONGOLESE (PRESIDENT LAURENT KA

In [31]:
#Transformando a lista em uma única string
texto = ' '.join(texto)
texto[:3000]

'From r  Wed Oct 30 21:41:56 2002 Return-Path: <james_ngola2002@maktoob.com> X-Sieve: cmu-sieve 2.0 Return-Path: <james_ngola2002@maktoob.com> Message-Id: <200210310241.g9V2fNm6028281@cs.CU> From: "MR. JAMES NGOLA." <james_ngola2002@maktoob.com> Reply-To: james_ngola2002@maktoob.com To: webmaster@aclweb.org Date: Thu, 31 Oct 2002 02:38:20 +0000 Subject: URGENT BUSINESS ASSISTANCE AND PARTNERSHIP X-Mailer: Microsoft Outlook Express 5.00.2919.6900 DM MIME-Version: 1.0 Content-Type: text/plain; charset="us-ascii" Content-Transfer-Encoding: 8bit X-MIME-Autoconverted: from quoted-printable to 8bit by sideshowmel.si.UM id g9V2foW24311 Status: O  FROM:MR. JAMES NGOLA. CONFIDENTIAL TEL: 233-27-587908. E-MAIL: (james_ngola2002@maktoob.com).  URGENT BUSINESS ASSISTANCE AND PARTNERSHIP.   DEAR FRIEND,  I AM ( DR.) JAMES NGOLA, THE PERSONAL ASSISTANCE TO THE LATE CONGOLESE (PRESIDENT LAURENT KABILA) WHO WAS ASSASSINATED BY HIS BODY GUARD ON 16TH JAN. 2001.   THE INCIDENT OCCURRED IN OUR PRESENCE W

In [32]:
emails = re.findall(r'\b[\w.-]+@[\w.-]+\b', texto)
emails[:10]

['james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 '200210310241.g9V2fNm6028281@cs.CU',
 'james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'webmaster@aclweb.org',
 'james_ngola2002@maktoob.com',
 'bensul2004nng@spinfinder.com',
 'bensul2004nng@spinfinder.com',
 '200210311310.g9VDANt24674@bloodwork.mr.itd.UM']

In [35]:
#Agora, vamos pegar os emails que terminam em `.com`
emails = re.findall(r'\b[\w.-]+@[\w.-]+.com', texto)
emails[:10]

['james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'bensul2004nng@spinfinder.com',
 'bensul2004nng@spinfinder.com',
 'bensul2004nng@spinfinder.com',
 'obong_715@epatra.com',
 'obong_715@epatra.com']

In [36]:
#E se eu quiser retornar os emails que terminam em `.com` ou em `.org`
emails = re.findall(r'\b[\w.-]+@[\w.-]+.(?:com|org)', texto)
emails[:10]

['james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'james_ngola2002@maktoob.com',
 'webmaster@aclweb.org',
 'james_ngola2002@maktoob.com',
 'bensul2004nng@spinfinder.com',
 'bensul2004nng@spinfinder.com',
 'bensul2004nng@spinfinder.com',
 'obong_715@epatra.com']

In [34]:
#Agora vamos extrair as datas
datas = re.findall(r'(?:Mon|Tue|Wed|Thu|Fri|Sat|Sun)\s[A-Za-z]{1,3}\s[0-9]{1,2}', texto)
datas[:10]

['Wed Oct 30',
 'Thu Oct 31',
 'Thu Oct 31',
 'Thu Oct 31',
 'Mon Nov 11',
 'Tue Nov 12',
 'Thu Nov 14',
 'Thu Nov 14',
 'Thu Nov 14',
 'Sat Nov 16']

In [37]:
#Vamos extrair as horas
horas = re.findall(r'[0-9]{2}:[0-9]{2}:[0-9]{2}', texto)
horas[:10]

['21:41:56',
 '02:38:20',
 '08:11:39',
 '05:10:00',
 '17:27:16',
 '22:17:55',
 '17:53:56',
 '22:44:20',
 '04:48:39',
 '01:45:04']

In [45]:
#Vamos extrair uma hora cujo valor seja igual ao valor dos minutos
hora_magica = re.search(r'(?P<hora>[0-9]{2}):(?P=hora):[0-9]{2}', texto)
hora_magica

<re.Match object; span=(61557, 61565), match='19:19:18'>

In [50]:
#Vamos extrair TODAS as horas cujo valor sejam iguais ao valor dos minutos
horas_magicas = re.findall(r'((?P<hora>[0-9]{2}):(?P=hora):[0-9]{2})', texto)
horas_magicas

[('19:19:18', '19'),
 ('12:12:31', '12'),
 ('12:12:23', '12'),
 ('12:12:31', '12'),
 ('12:12:23', '12'),
 ('01:01:47', '01'),
 ('01:01:34', '01'),
 ('22:22:29', '22'),
 ('20:20:56', '20'),
 ('16:16:45', '16'),
 ('16:16:05', '16'),
 ('23:23:26', '23'),
 ('07:07:56', '07'),
 ('12:12:07', '12'),
 ('10:10:21', '10'),
 ('10:10:21', '10'),
 ('13:13:53', '13'),
 ('13:13:42', '13'),
 ('20:20:36', '20'),
 ('08:08:03', '08'),
 ('23:23:53', '23'),
 ('20:20:07', '20'),
 ('19:19:05', '19'),
 ('15:15:30', '15'),
 ('05:05:11', '05'),
 ('13:13:10', '13'),
 ('09:09:42', '09'),
 ('13:13:01', '13'),
 ('13:13:17', '13'),
 ('04:04:08', '04'),
 ('11:11:55', '11'),
 ('10:10:05', '10'),
 ('19:19:00', '19'),
 ('01:01:01', '01'),
 ('09:09:45', '09'),
 ('10:10:03', '10'),
 ('23:23:45', '23'),
 ('17:17:15', '17'),
 ('17:17:14', '17'),
 ('17:17:00', '17'),
 ('17:17:35', '17'),
 ('17:17:35', '17'),
 ('17:17:35', '17'),
 ('17:17:35', '17'),
 ('16:16:10', '16'),
 ('01:01:05', '01'),
 ('10:10:08', '10'),
 ('17:17:19',

In [51]:
#Vamos verificar se existe alguma hora cujos minutos e os segundos tenham um valor igual ao da hora
horas_magicas_demais = re.findall(r'((?P<hora>[0-9]{2}):(?P=hora):(?P=hora))', texto)
horas_magicas_demais

[('01:01:01', '01'),
 ('19:19:19', '19'),
 ('22:22:22', '22'),
 ('08:08:08', '08')]

<center>
    <img src='https://imgs.xkcd.com/comics/perl_problems.png'>
    <h6><b>Fonte:</b> https://imgs.xkcd.com/comics/perl_problems.png</h6>
</center>