In [1]:
import pandas as pd
import numpy as np
import re

# Advanced REGEX

Como vimos na aula de `strings` muitas vezes a forma mais simples de manipularmos um `string` é utilizando padrões REGEX.

A utilização de REGEX é calcada na construção de **padrões**: ao invés de definir buscas simples (como quando procuramos uma sequência específica de caractéres), o REGEX nos permite construir padrões flexíveis, capaz de *encontrar*  sub-strings distintos. Já vimos como construir alguns padrões simples: hoje faremos uma revisão rápida dos conceitos básicos de REGEX e introduziremos novos conceitos, como grupos e os qualificadores para fim e começo.

## Revisão de Expressões Regulares

https://regexr.com/

O aspecto fundamental para a utilização de REGEX é a construção do padrão de busca. Vamos revisar alguns 

In [2]:
texto = '''
        Quando certa manhã Gregor Samsa acordou de sonhos intranquilos,
        encontrou-se em sua cama metamorfoseado num inseto monstruoso.
        '''

### Padrões e Conjuntos

A forma mais simples de utilizarmos um padrão é através de uma busca por *sub-string*. Padrões que não contém conjuntos ou carácteres especiais são chamados de **padrões literais**.

#### Busca Literal

In [3]:
print(re.findall('Samsa', texto))

['Samsa']


In [4]:
print(re.findall('so', texto))

['so', 'so']


In [5]:
print(re.findall('SO', texto))

[]


In [6]:
print(re.findall('samsa', texto))

[]


In [7]:
print(re.findall('metamorfose', texto))

['metamorfose']


In [9]:
print(re.sub('metamorfose', 'Pedro', texto))


        Quando certa manhã Gregor Samsa acordou de sonhos intranquilos,
        encontrou-se em sua cama Pedroado num inseto monstruoso.
        


#### Conjuntos

Podemos utilizar conjuntos para expandir nossa capacidade de busca. Vamos começar construindo um conjunto através do operador OR (`|`).

##### Exemplo 1: `m|e|t|a|m|o|r|f|o|s|e`

In [10]:
print(re.findall('m|e|t|a|m|o|r|f|o|s|e', texto))

['a', 'o', 'e', 'r', 't', 'a', 'm', 'a', 'r', 'e', 'o', 'r', 'a', 'm', 's', 'a', 'a', 'o', 'r', 'o', 'e', 's', 'o', 'o', 's', 't', 'r', 'a', 'o', 's', 'e', 'o', 't', 'r', 'o', 's', 'e', 'e', 'm', 's', 'a', 'a', 'm', 'a', 'm', 'e', 't', 'a', 'm', 'o', 'r', 'f', 'o', 's', 'e', 'a', 'o', 'm', 's', 'e', 't', 'o', 'm', 'o', 's', 't', 'r', 'o', 's', 'o']


In [11]:
print(re.findall('[metamorfose]', texto))

['a', 'o', 'e', 'r', 't', 'a', 'm', 'a', 'r', 'e', 'o', 'r', 'a', 'm', 's', 'a', 'a', 'o', 'r', 'o', 'e', 's', 'o', 'o', 's', 't', 'r', 'a', 'o', 's', 'e', 'o', 't', 'r', 'o', 's', 'e', 'e', 'm', 's', 'a', 'a', 'm', 'a', 'm', 'e', 't', 'a', 'm', 'o', 'r', 'f', 'o', 's', 'e', 'a', 'o', 'm', 's', 'e', 't', 'o', 'm', 'o', 's', 't', 'r', 'o', 's', 'o']


In [12]:
re.findall('[metamorfose]', texto) == re.findall('m|e|t|a|m|o|r|f|o|s|e', texto)

True

##### Exemplo 2: Cidade de São Paulo

In [16]:
text = 'São Paulo Sao Paulo Sáo Paulo Sun Paulo seu paulo san paolo sao paulo são paolo sAo Paolo sao_paulo'

pattern = r'[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]lo'
re.findall(pattern, text)

['São Paulo',
 'Sao Paulo',
 'Sáo Paulo',
 'Sun Paulo',
 'seu paulo',
 'san paolo',
 'sao paulo',
 'são paolo',
 'sAo Paolo',
 'sao_paulo']

In [17]:
re.sub(pattern, 'São Paulo', text)

'São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo'

In [19]:
['São Paulo' for x in re.findall(pattern, text)]

['São Paulo',
 'São Paulo',
 'São Paulo',
 'São Paulo',
 'São Paulo',
 'São Paulo',
 'São Paulo',
 'São Paulo',
 'São Paulo',
 'São Paulo']

In [20]:
nomes_sp = ['São Paulo', 'Sao Paulo', 'Sáo Paulo', 
            'Sun Paulo', 'seu paulo', 'san paolo', 
            'sao paulo', 'são paolo', 'sAo Paolo', 
            'sao_paulo', 'Rio de Janeiro']
print(re.sub(pattern, 'São Paulo', nomes_sp[0]))

São Paulo


In [22]:
print(re.sub(pattern, 'São Paulo', nomes_sp[-1]))

Rio de Janeiro


In [23]:
print(re.sub(pattern, 'São Paulo', nomes_sp))

TypeError: expected string or bytes-like object

In [24]:
nome_sp_limpo = [re.sub(pattern, 'São Paulo', nome) for nome in nomes_sp]
print(nome_sp_limpo)

['São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'Rio de Janeiro']


In [26]:
tb_nomes = pd.DataFrame({'nome' : nomes_sp})
tb_nomes

Unnamed: 0,nome
0,São Paulo
1,Sao Paulo
2,Sáo Paulo
3,Sun Paulo
4,seu paulo
5,san paolo
6,sao paulo
7,são paolo
8,sAo Paolo
9,sao_paulo


In [33]:
def limpar_sp(nome_errado):
    pattern = r'[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]lo'
    nome_certo = re.sub(pattern, 'São Paulo', nome_errado)
    return nome_certo

tb_nomes['nome'].map(lambda x: re.sub(pattern, 'São Paulo', x))
#tb_nomes['nome'].map(limpar_sp)

0          São Paulo
1          São Paulo
2          São Paulo
3          São Paulo
4          São Paulo
5          São Paulo
6          São Paulo
7          São Paulo
8          São Paulo
9          São Paulo
10    Rio de Janeiro
Name: nome, dtype: object

In [None]:
nomes_sp = ['São Paulo', 'Sao Paulo', 'Sáo Paulo', 
            'Sun Paulo', 'seu paulo', 'san paolo', 
            'sao paulo', 'são paolo', 'sAo Paolo', 
            'sao_paulo', 'Rio de Janeiro']

dict_nomessp = dict()
dict_nomessp['São Paulo'] = 'Sao Paulo'
dict_nomessp['São Paulo'] = 'Sáo Paulo'


In [32]:
func_lamb = lambda x: re.sub(pattern, 'São Paulo', x)
func_lamb('Rio de Janeiro')

'Rio de Janeiro'

Qualquer coisa entre `[]`, em padrão REGEX, é um conjunto! Pensando nos strings de forma posicional, cada conjunto ocupa **apenas uma posição do string**! Por exemplo, o padrão `r'[Ss][AaÃãÂâÁáÀà]` tem comprimento dois: procurando `[Ss]` na primeira posição e `[AaÃãÂâÁáÀà]` na segunda!

##### Atalhos para Conjunto

Podemos utilizar a notação `r'[A-D]'` para construir padrões contendo todos os carácteres entre duas letras.

In [34]:
lista_tarefas = '''
    A) cortar grama
    B) arrumar porta
    C) instalar calha
    D) ligar para Pedro as 9
    '''

In [35]:
re.findall(r'A|B|C|D', lista_tarefas)

['A', 'B', 'C', 'D']

In [36]:
re.findall(r'[ABCD]', lista_tarefas)

['A', 'B', 'C', 'D']

In [42]:
re.findall(r'[A-D]', lista_tarefas)

['A', 'B', 'C', 'D']

In [43]:
re.findall(r'[A-Z]', lista_tarefas)

['A', 'B', 'C', 'D', 'P']

In [44]:
lista_tarefas = '''
    1) cortar grama
    2) arrumar porta
        2a trocar fechadura
    3) instalar calha
    4) ligar para Pedro as 9 9983
    '''
re.findall('1|2|3|4', lista_tarefas)

['1', '2', '2', '3', '4', '3']

In [45]:
re.findall(r'[1234]', lista_tarefas)

['1', '2', '2', '3', '4', '3']

In [46]:
re.findall(r'[1-4]', lista_tarefas)

['1', '2', '2', '3', '4', '3']

In [47]:
re.findall(r'[0-9]', lista_tarefas)

['1', '2', '2', '3', '4', '9', '9', '9', '8', '3']

In [48]:
re.findall(r'[0-9A-Z]', lista_tarefas)

['1', '2', '2', '3', '4', 'P', '9', '9', '9', '8', '3']

In [51]:
re.findall(r'[0-9a-zA-Z]', lista_tarefas)

['1',
 'c',
 'o',
 'r',
 't',
 'a',
 'r',
 'g',
 'r',
 'a',
 'm',
 'a',
 '2',
 'a',
 'r',
 'r',
 'u',
 'm',
 'a',
 'r',
 'p',
 'o',
 'r',
 't',
 'a',
 '2',
 'a',
 't',
 'r',
 'o',
 'c',
 'a',
 'r',
 'f',
 'e',
 'c',
 'h',
 'a',
 'd',
 'u',
 'r',
 'a',
 '3',
 'i',
 'n',
 's',
 't',
 'a',
 'l',
 'a',
 'r',
 'c',
 'a',
 'l',
 'h',
 'a',
 '4',
 'l',
 'i',
 'g',
 'a',
 'r',
 'p',
 'a',
 'r',
 'a',
 'P',
 'e',
 'd',
 'r',
 'o',
 'a',
 's',
 '9',
 '9',
 '9',
 '8',
 '3']

Os atalhos de conjunto mais úteis são:

* [a-z]: Qualquer letra minúscula;
* [A-Z]: Qualquer letra maiúscula;
* [0-9]: Qualquer digito.

#### Classes de Caracteres

As classes de caracteres são *atalhos* para conjuntos comuns:

* `\d`: caracteres numéricos;
* `\w`: caracteres alfa-numéricos;
* `\s`: espaços;
* `\D`: caracteres não-numéricos.

In [54]:
text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'
pattern = r'\d'
print(re.findall(pattern, text))

['3', '2', '3', '2', '1', '3', '3', '1']


In [63]:
text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'
pattern = r'[^\d]'
print(re.findall(pattern, text))

['a', 'o', 'i', 'j', 'o', ' ', '(', ' ', ' ', '$', ' ', 'p', ' ', 'i', 'o', ' ', 'x', ' ', '-', 'o', ' ', '=', ' ', ' ', ' ', '™', '¡', '¡', '™', '£', '¡', 'Ω', 'å', ' ', '.', ' ', 'á', 'é', 'ó', 'ã', 'à']


## Quantificadores 

Assim como os conjuntos tornam os caracteres de uma posição flexíveis (`r'[Aa]'` encontra tanto `A` quanto `a` na primeira posição), os quantificadores tornam o número de posições que um conjunto (ou caractere) ocupam.

* *: Encontra o caractere (ou conjunto) aterior 0 ou mais vezes consecutivas;
* +: Encontra o caractere (ou conjunto) anterior 1 ou mais vezes consecutivas;
* ?: Encontra o caractere (ou conjunto) anterior 0 ou 1 vez.

Por exemplo, o padrão `r'a+'` encontra `'a'`, `'aa'`, `'aaa'`, etc...

In [64]:
text = 'a aa aaa aaaa aaaaa aaaaaa'
pattern = r'a+'
print(re.findall(pattern, text))

['a', 'aa', 'aaa', 'aaaa', 'aaaaa', 'aaaaaa']


Já o padrão `r'a*'` encontra `''`, `'a'`, `'aaa'`, etc...

In [65]:
text = 'a aa aaa aaaa aaaaa aaaaaa'
pattern = r'a*'
print(re.findall(pattern, text))

['a', '', 'aa', '', 'aaa', '', 'aaaa', '', 'aaaaa', '', 'aaaaaa', '']


Por fim, o padrão `r'ab?a*'` encontra todos os *sub-strings* que começam com `a`, possivelmente são seguidos de 1 `b` e podem ter múltiplos `a`s no final:

1. `a`;
1. `ab`;
1. `aba`;
1. `aa`;
1. `abaa`;
1. `...`

In [68]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'ab?a*'
print(re.findall(pattern, text))

['a', 'aba', 'aaa', 'aaa', 'a', 'aaaaa', 'aaaaaa']


Porque o padrão acima separou `aaaba` em `aaa` e `a`?

### Exemplo - Encontrando números

In [104]:
text = '3.1 3,3 bbb 45,35 aaa 1000 0 aaaa 4,6544 100.000.000,35'
pattern = r'\d+[\d+,.]*'
print(re.findall(pattern, text))

['3.1', '3,3', '45,35', '1000', '0', '4,6544', '100.000.000,35']


In [83]:
text = '3.1 3,3 bbb 45,35 aaa 1000 0 aaaa\n111'
pattern = r'.'
print(re.findall(pattern, text))

['3', '.', '1', ' ', '3', ',', '3', ' ', 'b', 'b', 'b', ' ', '4', '5', ',', '3', '5', ' ', 'a', 'a', 'a', ' ', '1', '0', '0', '0', ' ', '0', ' ', 'a', 'a', 'a', 'a', '1', '1', '1']


## Quantificadores Especiais
O quantificador `{n}` funciona como um `+` controlado: podemos especificar quantas vezes queremos encontrar o caractere (ou conjunto) precendente:

* {n} : Exatamente n-vezes;
* {n,} : Pelo menos n-vezes;
* {n,m} : Entre n e m vezes;

In [106]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'a{1}'
print(re.findall(pattern, text))

['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a']


In [107]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'a{2}'
print(re.findall(pattern, text))

['aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa']


In [108]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'a{4}'
print(re.findall(pattern, text))

['aaaa', 'aaaa']


In [110]:
text = 'a abaa baaa aaaba aaaaa aaaaaa'
pattern = r'a{2,}'
print(re.findall(pattern, text))

['aa', 'aaa', 'aaa', 'aaaaa', 'aaaaaa']


In [111]:
text = 'a abaa baaa aaaba aaaaa aaaaaa'
pattern = r'a{2,3}'
print(re.findall(pattern, text))

['aa', 'aaa', 'aaa', 'aaa', 'aa', 'aaa', 'aaa']


#### Exemplo - Encontrando CPFs


Vamos construir um padrão para encontrar número com formato de CPF em um string.

In [113]:
text = '339.211.273-23 33921127323 339.211.27323 119730 R$13542 43.544.230-23'
pattern = '[0-9]{1,3}\.?[0-9]{3}\.?[0-9]{3}-?[0-9]{1,2}'
print(re.findall(pattern, text))

['339.211.273-23', '33921127323', '339.211.27323', '43.544.230-23']


## Meta-caracteres

Meta-caracteres são caracteres *especiais*: o REGEX não os interpreta de forma literal. Se quisermos utilizar um meta-caractere literalmente (como o `.` no exemplo do CPF) devemos escapá-lo com `\`.

* `.` : Qualquer caractere exceto newline (`\n`);
* `[^]` : **Dentro de um conjunto** representa a negação (inverte o conjunto);
* `^`: **Fora de um conjunto** representa o começo da linha;
* `$` : Fim da linha;
* `|` : Operador OU;

### Limpando newlines com `.`

O meta-caractere `.` pode ser utilizado para limparmos os `\n` de um string:

In [114]:
text = '''My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not.'''
pattern = r'.'
print(re.findall(pattern, text))

['M', 'y', ' ', 'b', 'o', 's', 's', ' ', 'a', 's', 'k', 'e', 'd', ' ', 'm', 'e', ' ', 't', 'o', ' ', 't', 'u', 'r', 'n', ' ', 'i', 'n', ' ', 'm', 'y', ' ', 'T', 'P', 'S', ' ', 'r', 'e', 'p', 'o', 'r', 't', 's', '.', ' ', 'I', ' ', 't', 'o', 'l', 'd', ' ', 'h', 'i', 'm', ' ', 't', 'h', 'e', 'y', ' ', 'w', 'e', 'r', 'e', ' ', 'd', 'o', 'n', 'e', ',', ' ', 'b', 'u', 't', ' ', 't', 'h', 'e', 'y', ' ', 'a', 'r', 'e', ' ', 'n', 'o', 't', '.']


In [115]:
print(text)

My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not.


In [116]:
print(''.join(re.findall(pattern, text)))

My boss asked me to turn in my TPS reports. I told him they were done, but they are not.


### Negando Conjuntos

Dentro de um conjunto, o caractere `[^]` representa a negação do conjunto (encontramos tudo **QUE NÃO ESTÁ NO CONJUNTO**). Muitas vezes é mais fácil especificar **O QUE NÃO QUEREMOS** do que o que queremos!

In [119]:
text = """My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not."""
pattern = r'[^aeiouAEIOU]'
print(re.findall(pattern, text))

['M', 'y', ' ', 'b', 's', 's', ' ', 's', 'k', 'd', ' ', 'm', ' ', 't', ' ', 't', 'r', 'n', ' ', 'n', ' ', 'm', 'y', ' ', 'T', 'P', 'S', ' ', 'r', 'p', 'r', 't', 's', '.', ' ', '\n', ' ', 't', 'l', 'd', ' ', 'h', 'm', ' ', 't', 'h', 'y', ' ', 'w', 'r', ' ', 'd', 'n', ',', ' ', 'b', 't', ' ', 't', 'h', 'y', ' ', 'r', ' ', 'n', 't', '.']


In [120]:
print(''.join(re.findall(pattern, text)))

My bss skd m t trn n my TPS rprts. 
 tld hm thy wr dn, bt thy r nt.


### Encontrando padrões no começo ou fim do string

Os caracteres `^` e `$` nos permitem encontrar o começo ou fim, respectivamente, de um string.

In [121]:
text = '''My boss asked me to turn in my TPS reports.
The boss told him they were done, but they are not.'''

In [122]:
pattern = r'^My boss'
re.findall(pattern, text)

['My boss']

In [124]:
pattern = r'^The boss'
re.findall(pattern, text)

[]

O padrão do REGEX no Python é considerar o começo e fim do **string** como um todo. Podemos alterar esse padrão para que eles encontrem o começo e fim de cada nova linha (criada com `\n`).

In [125]:
pattern = r'^The boss'
re.findall(pattern, text, re.MULTILINE)

['The boss']

In [140]:
text = '''My boss asked me to reports. My boss did turn in my TPS reports.'''

In [141]:
pattern = r'are not\.$'
re.findall(pattern, text)

[]

In [142]:
pattern = '^My boss'
re.findall(pattern, text)

['My boss', 'My boss']

### Aplicando `$` com `*`

In [148]:
text = '''My boss asked me to turn. in my TPS reports.
My boss told him they were done, but they are not.'''

In [149]:
re.findall(r'are not.$', text)

['are not.']

In [150]:
re.findall(r'.are not.$', text)

[' are not.']

In [151]:
re.findall(r'.*are not.$', text)

['My boss told him they were done, but they are not.']

In [152]:
re.findall(r'.*\.$', text, re.MULTILINE)

['My boss told him they were done, but they are not.']

## Ganância (Greediness)
https://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy

In [157]:
text = 'You are yelling! So I will yell too! Let me yell!'

In [159]:
pattern = r'.*!'
print(re.findall(pattern, text))

['!', '!', '!']


When repeating a regular expression, as in a*, **the resulting action is to consume as much of the pattern as possible.**

In [155]:
pattern = r'[ a-zA-Z]*!'
print(re.findall(pattern, text))

['You are yelling!', ' So I will yell too!', ' Let me yell!']


## Utilizando `grupos`

Até agora, utilizamos padrões para extrair substrings completos. Muitas vezes, no entanto, queremos utilizar um REGEX para extrair múltiplas informações de um mesmo string a partir de uma estrutura determinada. Para isto, usaremos grupos!

https://docs.python.org/3/howto/regex.html#grouping

In [161]:
text = '''
From: author@example.com
User-Agent: Thunderbird 1.5.0.9 (X11/20061227)
MIME-Version: 1.0
To: editor@example.com
'''

In [162]:
pattern = r'(.*):(.*)'
re.findall(pattern, text)

[('From', ' author@example.com'),
 ('User-Agent', ' Thunderbird 1.5.0.9 (X11/20061227)'),
 ('MIME-Version', ' 1.0'),
 ('To', ' editor@example.com')]

O resultado de um REGEX feito a partir de um padrão com grupos é uma lista de tuplas. Cada elemento da lista corresponde à um match do padrão completo e cada elemento da tupla corresponde à um grupo do padrão (mesmo que este grupo esteja vazio):

In [163]:
text = '''
From:
User-Agent: Thunderbird 1.5.0.9 (X11/20061227)
MIME-Version: 1.0
To: editor@example.com
'''
pattern = r'(.*):(.*)'
re.findall(pattern, text)

[('From', ''),
 ('User-Agent', ' Thunderbird 1.5.0.9 (X11/20061227)'),
 ('MIME-Version', ' 1.0'),
 ('To', ' editor@example.com')]

### Exemplo - Separação de Códgio Internacional, DDDs e Telefones

Uma tarefa comum que encontramos no tratamento de `strings` é a separação de um string semi-estruturado (por exemplo, um telefone) em seus componentes.

In [168]:
lista_telefone = ['+55(19)35613675', '+55(11)29934999', '+1(678)818977222', '+1(544)932226172']

In [None]:
55
112
5959596

In [169]:
#pattern = r'\+([0-9]*)\(([0-9]*)\)([0-9]*)'
pattern = r'\+([0-9]*)\(([0-9]*)\)([\d-]*)'
[re.findall(pattern, telefone) for telefone in lista_telefone]

[[('55', '19', '35613675')],
 [('55', '11', '2993-4999')],
 [('1', '678', '8189-77222')],
 [('1', '544', '932226172')]]

In [None]:
r'aaaa(.*)bbbbb'

# Voltamos 21h40