In [70]:
import re

# Introdução

As expressões regulares são extremamente úteis na extração de informações de texto, como: código, arquivos de log, planilhas, documentos, etc.

Podemos combinar uma string específica *X* em uma string de teste *S* criando nosso padrão regex *X*. Este é um dos padrões mais simples.

## Consultando uma palavra específica


Uma expressão regular é uma sequência de caracteres que define um padrão de pesquisa. É usado principalmente para capturar caracteres em uma string.

<center>

![intro_1](https://jeoronei.github.io/regex/images/intro/intro_1.png)

</center>

Na imagem acima é possível visualizar que a nossa expressão regular `"de"` encontrou 5 trechos na string que atendem a necessidade.

In [71]:
string_1 = "O tempo perguntou ao tempo quanto tempo o tempo tem, o tempo respondeu ao tempo que o tempo tem o tempo que o tempo tem."

re.findall(r'tempo', string_1)

['tempo',
 'tempo',
 'tempo',
 'tempo',
 'tempo',
 'tempo',
 'tempo',
 'tempo',
 'tempo']

## Ponto

O ponto (.) corresponde a qualquer caracter (exceto para uma nova linha), caso você queira identificar se a string possui um (.) deve se utilizar `\.`.

<center>

![intro_2](https://jeoronei.github.io/regex/images/intro/intro_2.png)
</br>
![intro_3](https://jeoronei.github.io/regex/images/intro/intro_3.png)

</center>

Nas imagens acima é possível visualizar que a nossa expressão regular `"A.C.D.D."` faz match apenas com o inicio da string, isso se deve pelo fato de (.) ser um caracter coringa, então naquele contexto ele assume o valor de "+" "=" e "E". 

In [72]:
string_2 = "A+B+C+D=DE"

re.findall(r'A.B.C.D.D.', string_2)

['A+B+C+D=DE']

## Espaço e não espaço

\s corresponde a qualquer espaço em branco [\r \n \t \f].

<center>

![space](https://jeoronei.github.io/regex/images/intro/intro_8.png)

</center>

Na imagem acima é possível visualizar que a nossa expressão regular `"\s"` captura todos os espaços em branco da string.

A expressão \S corresponde a não espaços em branco [^\r \n \t \f].

<center>

![non-space](https://jeoronei.github.io/regex/images/intro/intro_9.png)

</center>

Diferente de `"\s"`, `"\S"` vai trazer todos os caracteres que forem diferentes de \r, \n, \t, \f. Na imagem acima é possível verificar que `"\S"` busca todos os caracteres exceto os espaços em branco.

In [73]:
string_3 = "Que a Força esteja com você."
re.findall(r'\s', string_3)

[' ', ' ', ' ', ' ', ' ']

In [74]:
re.findall(r'\S', string_3)

['Q',
 'u',
 'e',
 'a',
 'F',
 'o',
 'r',
 'ç',
 'a',
 'e',
 's',
 't',
 'e',
 'j',
 'a',
 'c',
 'o',
 'm',
 'v',
 'o',
 'c',
 'ê',
 '.']

## Digitos e não digito

A expressão \d corresponde a qualquer dígito entre [0-9].

<center>

![digit](https://jeoronei.github.io/regex/images/intro/intro_4.png)

</center>

Na imagem acima é possível visualizar que a nossa expressão regular `"\d"` captura apenas os número (digitos entre 0 a 9).

A expressão \D corresponde a qualquer caractere exceto números [^0-9].

<center>

![non-digit](https://jeoronei.github.io/regex/images/intro/intro_5.png)

</center>

Diferente de `"\d"`, `"\D"` vai trazer todos os caracteres exceto números. Na imagem acima é possível verificar que `"\D"` captura todos os caracteres exceto os números.

In [75]:
string_4 = "RegEx1234."
re.findall(r'\d', string_4)

['1', '2', '3', '4']

In [76]:
re.findall(r'\D', string_4)

['R', 'e', 'g', 'E', 'x', '.']

## Paravra (word) não palavra (non-word) caracteres

A expressão \w corresponderá a caracteres alfanuméricos (a-z, A-Z e 0-9) e sublinhado (_).

<center>

![word](https://jeoronei.github.io/regex/images/intro/intro_6.png)

</center>

Na imagem acima é possível visualizar que a nossa expressão regular `"\w"` captura todos os número e letras da string.

\W captura qualquer caractere exceto os alfanuméricos (a-z, A-Z e 0-9) e sublinhado (_).

<center>

![non-word](https://jeoronei.github.io/regex/images/intro/intro_7.png)

</center>

Na imagem acima é possível verificar que `"\W"` busca todos os caracteres exceto letras e números.

In [77]:
string_5 = "$$$ RegEx##1234##."
re.findall(r'\w', string_5)

['R', 'e', 'g', 'E', 'x', '1', '2', '3', '4']

In [78]:
re.findall(r'\W', string_5)

['$', '$', '$', ' ', '#', '#', '#', '#', '.']

## Inicio e fim de uma string

O símbolo ^ corresponde à posição inicial de uma string.

<center>

![start](https://jeoronei.github.io/regex/images/intro/intro_10.png)

</center>

Na imagem acima é possível visualizar que a nossa expressão regular `"^123"` captura os números 123 no inicio da nossa string.

<center>

![all](https://jeoronei.github.io/regex/images/intro/intro_11.png)

</center>

Na imagem acima é possível visualizar que a nossa expressão regular `"123"` captura todas as ocorrencias de 123 na nossa string.

<center>

![end](https://jeoronei.github.io/regex/images/intro/intro_12.png)

</center>

Na imagem acima é possível visualizar que a nossa expressão regular `"123$"` captura os números 123 no final da nossa string.

In [79]:
string_6 = "123454123"
re.findall(r'^123', string_6)

['123']

In [80]:
re.findall(r'123', string_6)

['123', '123']

In [81]:
string_6 = "123454123"
re.findall(r'123$', string_6)

['123']

## Exercícios para o primeiro módulo :)

In [82]:
# Exercicio 1
# TASK: Você tem uma string S.
# Sua tarefa é encontrar todas as palavras arara no texto.

exercicio_1 = r"_________" # Sua Expressão Regular aqui

In [83]:
# Exercicio 2
# TASK: Você tem uma string S.
# Sua tarefa é escrever uma expressão regular que encontre exatamente o texto: "abc.def.ghi.jkl"
# Onde, cada variavel a,b,c,d,e,f,g,h,i,j,k,l pode ser qualquer caractere exceto uma nova linha.

exercicio_2 = r"_________" # Sua Expressão Regular aqui

In [84]:
# Exercicio 3
# TASK: Você tem uma string S.
# Sua tarefa é escrever uma expressão regular que encontre exatamente o texto xxXxxXxxxx
# Onde, x (minusculo) é um número e X (maiusculo) pode ser qualquer caractere exceto um número.

exercicio_3 = r"_________"	# Sua Expressão Regular aqui

In [85]:
# Exercicio 4
# TASK: Você tem uma string S.
# Sua tarefa é escrever uma expressão regular que encontre exatamente o texto xxxXxxxxxxxxxxXxxx
# Onde x (minusculo) denota um caractere do tipo 'word' e X (maiusculo) pode ser qualquer caractere exceto um do tipo 'word'.

exercicio_4 = r"_________"	# Sua Expressão Regular aqui

In [86]:
# Exercicio 5
# TASK: Você tem uma string S.
# Sua tarefa é escrever uma expressão regular que encontre exatamente o texto XXxXXxXX
# Onde, x (minusculo) denota caracteres de espaço em branco e X (Maiusculo) denota caracteres que não sejam um espaço em branco.

exercicio_5 = r"_________"	# Sua Expressão Regular aqui

In [87]:
# Exercicio 6
# TASK: Você tem uma string S.
# Sua tarefa é combinar o padrão Xxxxx.
# Onde, x (minusculo) denota um word caracter e X (Maiusculo) denota caracteres de digito.

exercicio_6 = r"_________"	# Sua Expressão Regular aqui

# Aqui começa as validações dos exercicios
Após escrever as expressões regulares, basta rodar os testes abaixo para validar se 

In [88]:
test_String = 'Fala, arara loura. A arara loura falará.'

assert len(re.findall(exercicio_1, test_String)) == 2, 'Exercicio 1 com erro: Esperado encontrar 2 elementos'

print('Exercicio 1 correto')

Exercicio 1 correto


In [89]:
assert re.match(exercicio_2, '123.456.678.098') is not None, 'Exercicio 2 com erro'
assert re.match(exercicio_2, '123..456.678.098') is None, 'Exercicio 2 com erro'
assert re.match(exercicio_2, '1234.4564678.098') is None, 'Exercicio 2 com erro'

print('Exercicio 2 correto')

Exercicio 2 correto


In [90]:
assert re.match(exercicio_3, '06-11-2015') is not None, 'Exercicio 3 com erro'
assert re.match(exercicio_3, '06/11/2015') is not None, 'Exercicio 3 com erro'
assert re.match(exercicio_3, '678.098-11') is None, 'Exercicio 3 com erro'
assert re.match(exercicio_3, '--3---8098') is None, 'Exercicio 3 com erro'

print('Exercicio 3 correto')

Exercicio 3 correto


In [91]:
assert bool(re.search(exercicio_4, 'www.hackerrank.com')), 'Exercicio 4 com erro'

print('Exercicio 4 correto')

Exercicio 4 correto


In [92]:
assert bool(re.search(exercicio_5, '12 11 15')), 'Exercicio 5 com erro'

print('Exercicio 5 correto')

Exercicio 5 correto


In [93]:
assert bool(re.search(exercicio_6, '0qwer.')), 'Exercicio 6 com erro'

print('Exercicio 6 correto')

Exercicio 6 correto


## Referencias

"Exercícios retidados do hackerrank", https://www.hackerrank.com/