# RegEx em Python

Este notebook te ajudará a adquirir noções de expressão regular na linguagem Python.

## O que é expressão regular?

Expressão regular (RegEx) é uma sequência de caracteres que define um padrão de busca. Por exemplo: 

    ^a...s$

O código acima define um padrão RegEx. Este padrão em específico seria: qualquer string com 5 letras começando com a e terminando com s.

O padrão RegEx pode ser utilizado para verificar existência deste padrão em uma string. 

Muitos dos programas que são escritos na Bioinformática podem ser descritos como busca por padrões em uma string. Dentre alguns exemplos destes programas temos aqueles que procuram:

- determinar o domínio proteico;
- encontrar sítios de ligação de um fator de transcrição;
- determinar sítios de clivagem de uma enzima de resrição;
- determinar sítios de ligação de primers degederados;
- etc.


O python possui um módulo chamado re, que trabalha com RegEx. Vamos carregar esta biblioteca:

In [None]:
import re

Segue um exemplo do uso desta biblioteca:

In [None]:
pattern = '^a...s$'    # padrão regex
test_string = 'abyss'  # string a ser testado se possui o padrão
result = re.match(pattern, test_string) # função do módulo re que verifica a existência desse padrão na string

if result:
  print("Search successful.")
else:
  print("Search unsuccessful.")	

Neste exemplo foi utilizado a função re.match() para procurar o padrão que está em 'pattern' dentro da string em 'test_string'. Este método em específico retorna parte da string que possui o padrão se esse padrão existir. Se não, ele retorna None.

## Especificando um padrão utilizando o RegEx

Para especificar um padrão, além dos caracteres normais, utilizamos metacaracteres.

### Metacaracteres

São caracteres que são interpretadas de forma especial pelo RegEx. Segue uma tabela com esses metacaracteres:


|Character   | Description  | Example  |
|:---:|:---:|:---:|			
|[]	|A set of characters|	"[a-m]"	
|\	|Signals a special sequence (can also be used to escape special characters)	|"\d"	|
|.	|Any character (except newline character)	|"he..o"	|
|^	|Starts with	|"^hello"	|
|\$	|Ends with	|"world$"|	
|*	|Zero or more occurrences	|"aix*"	|
|+	|One or more occurrences	|"aix+"	|
|{}	|Exactly the specified number of occurrences	|"al{2}"	|
|\|	|Either or	|"falls\|stays"	|
|()	|Capture and group| |


### Sequências especiais

Sequências especiais seria uma barra invertida (\\) seguido por um dos caracteres na lista abaixo. Eles possuem também um significado especial.

|Character|	Description|	Example|
|:---:|:---:|:---:|
|\A|	Returns a match if the specified characters are at the beginning of the string	|"\AThe"|
|\b|	Returns a match where the specified characters are at the beginning or at the end of a word (the "r" in the beginning is making sure that the string is being treated as a "raw string")	|r"\bain" r"ain\b"	|
|\B|	Returns a match where the specified characters are present, but NOT at the beginning (or at the end) of a word (the "r" in the beginning is making sure that the string is being treated as a "raw string")	|r"\Bain" r"ain\B"	|
|\d|	Returns a match where the string contains digits (numbers from 0-9)	|"\d"	|
|\D|	Returns a match where the string DOES NOT contain digits	|"\D"	|
|\s|	Returns a match where the string contains a white space character	|"\s"	|
|\S|	Returns a match where the string DOES NOT contain a white space character	|"\S"	|
|\w|	Returns a match where the string contains any word characters (characters from a to Z, digits from 0-9, and the underscore _ character)	|"\w"	|
|\W|	Returns a match where the string DOES NOT contain any word characters	|"\W"	|
|\Z|	Returns a match if the specified characters are at the end of the string |"Spain\Z"|

### Conjunto

Um conjunto seria um conjunto de caracteres entre colchetes. Eles possuem significados especiais no RegEx. Veja abaixo:

|Character|	Description|
|:---:|:---:|
|[arn]	|Returns a match where one of the specified characters (a, r, or n) are present	|
|[a-n]	|Returns a match for any lower case character, alphabetically between a and n	|
|[^arn]	|Returns a match for any character EXCEPT a, r, and n	|
|[0123]	|Returns a match where any of the specified digits (0, 1, 2, or 3) are present	|
|[0-9]	|Returns a match for any digit between 0 and 9	|
|[0-5][0-9]	|Returns a match for any two-digit numbers from 00 and 59	|
|[a-zA-Z]	|Returns a match for any character alphabetically between a and z, lower case OR upper case	|
|[+]	|In sets, +, \*, ., \|, (), $,{} has no special meaning, so [+] means: return a match for any + character in the string|

## Funções do módulo re

### findall()

Esta função retorna uma lista contendo todas as ocorrências de um padrão em uma string.

    re.findall(pattern, string)

Exemplo:

In [None]:
txt = "The rain in Spain"
x = re.findall("ai", txt)
print(x)

A lista contém as ocorrências na ordem em que eles foram encontrados. Caso o padrão não exista na string, é retornado uma lista vazia.

### search()

Esta função procura pelo padrão na string e retorna um objeto Match. Caso haja mais de uma ocorrência deste padrão, apenas a primeira ocorrência será retornada. Caso não haja ocorrência desse padrão, o valor `None` é retornado.

    re.search(pattern, string)

Exemplo:

In [None]:
txt = "The rain in Spain"
x = re.search("\s", txt)

print("The first white-space character is located in position:", x.start())

O objeto Match possui propriedades e métodos que contêm informações sobre a busca e o resultado da busca:
- `.span()` retorna uma tupla contendo as posições de início e de fim da ocorrência;
- `.start()` retorna a posição de início da ocorrência;
- `.end()` retorna a posição de fim da ocorrência;
- `.string` retorna a string que foi passado para a função;
- `.group()` retorna a parte da string que houve um match.

### finditer()

Esta função retorna um iterador contendo objetos match de todos as ocorrências não sobrepostas de um padrão em uma string.

    re.finditer(pattern, string)

Exemplo:

In [None]:
txt = "The rain in Spain"
x = re.finditer("ai", txt)
for m in x:
    print(m.start())

### split()

Esta função retorna uma lista onde a string foi dividia tendo a ocorrência do padrão como um delimitador.

    re.split(pattern, text, <maxsplit>)

Exemplo:

In [None]:
txt = "The rain in Spain"
x = re.split("\s", txt)
print(x)

Exemplo 2:

In [None]:
txt = "The rain in Spain"
x = re.split("\s", txt, 1)
print(x)

### sub()

Esta função substitui a ocorrência em uma strig de sua escolha. É possível controlar o número de substituições a ser realizada utilizando o parâmetro count.

    re.sub(pattern, replace, text, <count>)

Exemplo:

In [None]:
# substitui espaço por 9
txt = "The rain in Spain"
x = re.sub("\s", "9", txt)
print(x)

Exemplo 2:

In [None]:
# substitui espaço por 9 nas duas primeiras ocorrências.
txt = "The rain in Spain"
x = re.sub("\s", "9", txt, 2)
print(x)

### subn()

Esta função é semelhante à função `sub()`, exceto pelo fato dele retornar uma tupla com 2 itens contendo a nova string e o número de substituições realizaos.

    re.subn(pattern, replace, text, <count>)

Exemplo:

In [None]:
# string multilinha
string = 'abc 12\
de 23 \n f45 6'

# busca por todos os espaços na string
pattern = '\s+'

# string vazio
replace = ''

new_string = re.subn(pattern, replace, string) 
print(new_string)


## Utilizando o prefixo r antes do RegEx

Quando `r` ou `R` é utilizado antes de uma expressão regular, isto significa string crua. Por exemplo, `'\n'` é considerado como quebra de linha, enquanto que `r'\n'` significa dois caracteres: barra invertida `\` seguida de `n`.

A barra invertida serve como escape para vários caracteres inclusive os metacaracteres. No entanto, utilizando o prefixo `r`, o motor do RegEx tratará a `\` como um caracter normal.

In [None]:
string = '\n and \r are escape sequences.'

result = re.findall(r'[\n\r]', string) 
print(result)