# Advanced Regex

## Regular Expression review

- A powerful way to match text

In [1]:
import pandas as pd
import numpy as np
import re

https://regexr.com/

In [2]:
# Atribuir à variável text a frase: "That person wears marvelous trousers."
text = "That person wears marvelous trousers."

### Literal Strings vs Sets

#### literal strings: find the pattern 'person'

In [3]:
# Utilizando o método `findall` da lib de regex, 
# buscar padrão "person" na variável `text`
re.findall('person', text)

['person']

In [4]:
# Utilizando o método `findall` da lib regex, 
# buscar padrão "rs" na variável `text`
re.findall('rs', text)

['rs', 'rs', 'rs']

In [None]:
# Utilizando o método `findall` da lib regex, 
# buscar padrão "rs" na variável `text`

#### sets: Finding the pattern `p` or `e` or `r` or ...

##### Exemplo 1: p | e | r | s | o | n

In [6]:
# Utilizando o método `findall` da lib regex, 
# buscar as letras p ou e ou r ou s ou o ou n na variável `text`
re.findall('[person]', text)

['p',
 'e',
 'r',
 's',
 'o',
 'n',
 'e',
 'r',
 's',
 'r',
 'e',
 'o',
 's',
 'r',
 'o',
 's',
 'e',
 'r',
 's']

##### Exemplo 2: Cidade de São Paulo

In [7]:
# Utilizando o método `findall` da lib regex, 
# buscar os termos que contém a expressão que 
# simbolizam a cidade de São Paulo
text = 'São Paulo Sao Paulo Sáo Paulo Sun Paulo seu paulo san paolo sao paulo são paolo sAo Paolo sao_paulo'

pattern = '[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]lo'
re.findall(pattern, text)

['São Paulo',
 'Sao Paulo',
 'Sáo Paulo',
 'Sun Paulo',
 'seu paulo',
 'san paolo',
 'sao paulo',
 'são paolo',
 'sAo Paolo',
 'sao_paulo']

In [9]:
# Utilizando o método `sub` da lib regex, 
# buscar os termos que contém a expressão que 
# simbolizam a cidade de São Paulo e substitua por São Paulo
text = 'São Paulo Sao Paulo Sáo Paulo Sun Paulo seu paulo san paolo sao paulo são paolo sAo Paolo sao_paulo'

pattern = '[Ss][ãaáàâAÃÁÀâeu][oun][ _˘¿][Pp]a[uo]lo'
print(re.sub(pattern,  'São Paulo\n', text))

São Paulo
 São Paulo
 São Paulo
 São Paulo
 São Paulo
 São Paulo
 São Paulo
 São Paulo
 São Paulo
 São Paulo



In [10]:
# Utilizando o método `sub` da lib regex, 
# buscar os termos que contém a expressão que 
# simbolizam a cidade de São Paulo dentro de uma Series
# em Pandas e substitua por São Paulo

series_sp = pd.Series(['São Paulo',
'Sao Paulo',
'Sáo Paulo',
'Sun Paulo',
'seu paulo',
'san paolo',
'sao paulo',
'são paolo',
'sAo Paolo',
'sao_paulo',])

In [14]:
pattern = '[Ss][ãaáàâAÃÁÀâeu][oun][ _˘¿][Pp]a[uo]lo'
series_sp.map(lambda x: re.sub(pattern,  'São Paulo', x))

0    São Paulo
1    São Paulo
2    São Paulo
3    São Paulo
4    São Paulo
5    São Paulo
6    São Paulo
7    São Paulo
8    São Paulo
9    São Paulo
dtype: object

So anything within brackets `[ ]` are considered `sets` in RegEx. A set of patterns you want to find. 

## Since it is a set, you can look for complete sets

In [15]:
text = '''
This is an A and B conversation, 
so C your way out of it, or Even F.
'''

For example: The set of upper-case letters from A to C.

In [16]:
# Utilizando o método `findall` da lib regex, 
# buscar os caracteres de A | B | C
pattern = '[ABC]'
re.findall(pattern, text)

['A', 'B', 'C']

In [17]:
# Utilizando o método `findall` da lib regex, 
# buscar os caracteres de A a Z
re.findall('[A-Z]', text)

['T', 'A', 'B', 'C', 'E', 'F']

In [20]:
# Utilizando o método `findall` da lib regex, 
# buscar os caracteres de 1-3

text = '''I\'m not going to 0A the party because 
1) Karen is going, 2) I don't like her, and 
3) 3B I already have a headache.'''
re.findall('[1-3]', text)

['1', '2', '3', '3']

In [21]:
# Utilizando o método `findall` da lib regex, 
# buscar os caracteres de 0-9
re.findall('[0-9]', text)

['0', '1', '2', '3', '3']

In [23]:
# Utilizando o método `findall` da lib regex, 
# buscar os números de 0 a 9 e as letras de A a Z
re.findall('[0-9A-Z]', text)

['I', '0', 'A', '1', 'K', '2', 'I', '3', '3', 'B', 'I']

In [24]:
# Utilizando o método `findall` da lib regex, 
# buscar termos de dois caracteres, onde o primeiro 
# é um número de 0-9 e o segundo são letras de A-Z
re.findall('[0-9][A-Z]', text)

['0A', '3B']

Some useful sets: 

* [a-z]: Any lowercase letter between a and z.
* [A-Z]: Any uppercase letter between A and Z.
* [0-9]: Any numeric character between 0 and 9.

# Meta characters - They means something different than the character they represent.

* `.` : Match **any character** except newline (`\n`)
* `^` : If used within a `set`, negates the condition
> Careful, this pattern also represents another thing: If used <u>outside a set</u>, it represents `match if at the beginning of the line`
* `$` : Match if at end of the line
* `|` : "OR" operator

## OR

In [25]:
# Atribuir a variável text seu nome escrito com letra maiúscula e mínuscula
text = 'madu MADU'

In [28]:
# Utilizando um set, crie um pattern que dê match com a primeira letra do seu nome
pattern = '[Mm]'
re.findall(pattern, text)

['m', 'M']

In [29]:
# Utilizando o símbolo do ou, crie um pattern que dê match com a primeira letra do seu nome
pattern = 'M|m'
re.findall(pattern, text)

['m', 'M']

In [30]:
# Utilizando o símbolo do ou, crie um pattern 
# que dê match com `penguins` ou `lions`

text = '''
I like penguins
I like lions
I like penguins and lions
'''
pattern = 'penguins|lions'
re.findall(pattern, text)

['penguins', 'lions', 'penguins', 'lions']

## Match any character

In [33]:
# Crie um pattern que dê match com qualquer caracter

text = '''My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not.'''
pattern = '.'
print(re.findall(pattern, text))

['M', 'y', ' ', 'b', 'o', 's', 's', ' ', 'a', 's', 'k', 'e', 'd', ' ', 'm', 'e', ' ', 't', 'o', ' ', 't', 'u', 'r', 'n', ' ', 'i', 'n', ' ', 'm', 'y', ' ', 'T', 'P', 'S', ' ', 'r', 'e', 'p', 'o', 'r', 't', 's', '.', ' ', 'I', ' ', 't', 'o', 'l', 'd', ' ', 'h', 'i', 'm', ' ', 't', 'h', 'e', 'y', ' ', 'w', 'e', 'r', 'e', ' ', 'd', 'o', 'n', 'e', ',', ' ', 'b', 'u', 't', ' ', 't', 'h', 'e', 'y', ' ', 'a', 'r', 'e', ' ', 'n', 'o', 't', '.']


## Match everything not in specific set

In [34]:
# Crie um pattern que dê match com itens complementares
# à valores de a à m

text = """My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not."""
pattern = '[^a-z]'
print(re.findall(pattern, text))

['M', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', 'T', 'P', 'S', ' ', '.', ' ', '\n', 'I', ' ', ' ', ' ', ' ', ' ', ',', ' ', ' ', ' ', ' ', '.']


## Match sentences `beginning with pattern`

In [35]:
text = '''My boss asked me to turn in my TPS reports. 
The boss told him they were done, but they are not.'''

In [36]:
# Crie um pattern que retorne caso o texto comece com "My boss"
pattern = '^My boss'
print(re.findall(pattern, text))

['My boss']


In [37]:
# Crie um pattern que retorne caso o texto comece com "The boss"
pattern = '^The boss'
print(re.findall(pattern, text))

[]


In [40]:
# Crie um pattern que retorne caso o texto finalize com "are not."
pattern = 'are not.$'
print(re.findall(pattern, text))

['are not.']


In [42]:
# Crie um pattern que retorne caso o texto finalize com "are not."
pattern = 'reports.$'
print(re.findall(pattern, text))

[]


## Characters classes

* `\d`: numeric characters
* `\w`: alphanumeric characters 
* `\s`: spaces
* `\D`: not numeric characters

In [43]:
# Crie um pattern que retorne apenas os números
text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'

pattern = '\d'
re.findall(pattern, text)

['3', '2', '3', '2', '1', '3', '3', '1']

In [47]:
# Crie um pattern que retorne TUDO menos os números
pattern = '\D'
print(re.findall(pattern, text))

['a', 'o', 'i', 'j', 'o', ' ', '(', ' ', ' ', '$', ' ', 'p', ' ', 'i', 'o', ' ', 'x', ' ', '-', 'o', ' ', '=', ' ', ' ', ' ', '™', '¡', '¡', '™', '£', '¡', 'Ω', 'å', ' ', '.', ' ', 'á', 'é', 'ó', 'ã', 'à']


# Quantifiers 

* *: Matches previous character 0 or more times
* +: Matches previous character 1 or more times
* ?: Matches previous character 0 or 1 times (optional)
* {}: Matches previous characters however many times specified within:
* {n} : Exactly n times
* {n,} : At least n times
* {n,m} : Between n and m times

## \d* --> Matches any numeric character that appears 0 or more times.

In [None]:

text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'

In [48]:

text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'
pattern = '\d+'
print(re.findall(pattern, text))

['3232', '13', '3', '1']


In [51]:
text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'
pattern = '\d+\.?\d+'
print(re.findall(pattern, text))

['3232', '13', '3.1']


In [63]:
text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'
pattern = '\d{1,2}'
print(re.findall(pattern, text))

['32', '32', '13', '3', '1']


## Application of previous example of `$` using one of the most useful quantifiers `*`

In [64]:
import re

In [65]:
text = '''My boss asked me to turn in my TPS reports. 
My boss told him they were done, but they are not.'''

In [66]:
# Criar padrão que verifica se a frase termina com "are not."
re.findall('are not.$', text)

['are not.']

In [67]:
# Criar padrão que verifica se a frase termina com "are not"
# e mais algum caracter que não sabemos qual.
re.findall('.are not.$', text)

[' are not.']

In [68]:
# Criar padrão que verifica se a frase termina com "are not"
# e qualquer caracter (um ou mais que não sabemos qual)
re.findall('.*are not.$', text)

['My boss told him they were done, but they are not.']

In [69]:
# Garantir que pegamos a primeira sentença
re.findall('.*\n.*are not.$', text)

['My boss asked me to turn in my TPS reports. \nMy boss told him they were done, but they are not.']

# Important Regex Concept: Greediness
https://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy

In [70]:
text = 'You are yelling! So I will yell too! Let me yell!.'

In [73]:
# Criar padrão que dê match com uma frase que termine com exclamação
pattern = '.*!'
print(re.findall(pattern, text))

['You are yelling! So I will yell too! Let me yell!']


When repeating a regular expression, as in a*, **the resulting action is to consume as much of the pattern as possible.**

In [74]:
# Criar padrão que dê match com todas as frases que terminem com exclamação
# using a non-greedy qualifiers, which match as little text as possible
pattern = '.*?!'
print(re.findall(pattern, text))

['You are yelling!', ' So I will yell too!', ' Let me yell!']


# Capturing group
https://docs.python.org/3/howto/regex.html#grouping

In [86]:
text = '''My boss asked, me to turn in my TPS reports. 
My boss -told him they- were done -but they- are not.'''

In [83]:
# Criar padrão que dá match com um conteúdo que esteja entre traços
pattern = '-(.*?)-'
print(re.findall(pattern, text))

['told him they', 'but they']


In [87]:
pattern = '-.*?-'
print(re.findall(pattern, text))

['-told him they-', '-but they-']


In [88]:
text = '''My boss asked, me to turn in my TPS reports. 
My boss told, him they were done, but they, are ,not.'''

In [89]:
# Criar padrão que dá match com um conteúdo que esteja entre vírgulas
pattern = ',(.*?),'
print(re.findall(pattern, text))

[' him they were done', ' are ']


In [90]:
text = 'MaRiA eDuArDa FaShIoN fashion'
pattern = 'fashion'
re.findall(pattern, text, re.IGNORECASE)

['FaShIoN', 'fashion']