# REGular EXpression - INTRO TO REGEX
REGEX funcionam a partir do conceito de **padrões**: vamos utilizar os métodos para buscar ou alterar padrões em um string. Inicialmente esses **padrões** serão apenas strings - no entanto, mais a frente, veremos que podemos utilizar padrões *coringa*, permitindo buscas mais flexíveis.

In [1]:
# Importe a biblioteca!!
import re

1. `re.search`: Retorna o primeiro resultado do padrão no string;
2. `re.findall`: Retorna todas as instâncias do padrão no string através de uma lista;
3. `re.split`: Equivalente ao método `.split()`;
4. `re.sub`: Substitui um padrão por outro em um string.

Visualizando REGEXs: https://regexper.com/

## Função .findall()
A função `.findall()` busca todas as ocorrências de um padrão em um string, retornando cada *match* em uma lista.

In [2]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 2 vizinhos.'
pattern = 'vizinho'

re.findall(pattern, text)

['vizinho', 'vizinho']

In [3]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros.'
pattern = 'viz'

re.findall(pattern, text)

['viz']

In [4]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern_2 = 'VIZINHO'

re.findall(pattern_2, text)

[]

In [5]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern_3 = 'e'

len(re.findall(pattern_3, text))

4

### Exemplo Prático I
Vamos utilizar REGEX para abordar o problema das colunas. Desta vez vamos extrair o nome de todas as colunas que pertençam a tabela T1 (`T1_`)

In [6]:
# Extrair todas as colunas da T1
lista_colunas = ['T1_id', 'T1_nome', 'T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                 'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
                 'T1_vl_frete', 'T2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']


In [7]:
' '.join(lista_colunas)

'T1_id T1_nome T1_id_fatura T1_cd_sku T2_cd_promo T3_qt_vendido T4_vl_total T5_vl_custo T1_tipo_frete T1_rua T1_num T1_cep T1_cidade T1_uf T1_vl_frete T2_tp_promo T3_vl_promo T4_vl_sv T5_qt_doado'

In [8]:
re.findall('T1_', ' '.join(lista_colunas))

['T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_', 'T1_']

In [9]:
bool([1, 2, 3])

True

In [10]:
lista_t1 = []
for coluna in lista_colunas:
    pattern = 'T1_'
    if re.findall(pattern, coluna):
        lista_t1.append(coluna)
        
print(lista_t1)

['T1_id', 'T1_nome', 'T1_id_fatura', 'T1_cd_sku', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete']


## Padrões Complexos
A busca por padrões simples não é muito útil: resultados muito semelhatens podem ser alcançados utilizando apenas os métodos nativos de strings. O grande ganho ao utilizar REGEX é a utilização de padrões complexos.

### Operador '|'
O operador `|` (**ou**) nos permite buscar múltiplos padrões ao mesmo tempo.

In [11]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 carrapatos.'
pattern = 'cachorro|pata'

re.findall(pattern, text)

['cachorro']

Vamos utilizar o padrão ou para contar o número de palavras que contém com os carácters `ca` ou `pa`, contando separadamente os `ca`s e `pa`s e também contando o total de palavras que começam com outros carácteres:

In [12]:
lista_palavras = text.split()
print(lista_palavras)
dict_contagem = dict()
pattern = 'ca|pa'

for palavra in lista_palavras:
    silaba = re.findall(pattern, palavra)
    
    if silaba:
        #print(f'Encontrei ca ou pa na palavra {palavra}!')
        for cada_uma in silaba:
            if cada_uma not in dict_contagem.keys():
                dict_contagem[cada_uma] = 1
            else:
                dict_contagem[cada_uma] = dict_contagem[cada_uma] + 1
    else:
        if 'outros' in dict_contagem.keys():
            dict_contagem['outros'] = dict_contagem['outros'] + 1
        else:
            dict_contagem['outros'] = 1

#print(dict_contagem)

['Meu', 'vizinho,', 'o', 'Sr.', 'Pata,', 'tem', '5', 'cachorros', 'e', 'cada', 'um', 'tem', '4', 'carrapatos.']


Vamos revisitar o exemplo das colunas, desta vez usando o operador '|' para selecionar todas as colunas com os substrings T1 ou T4:

In [13]:
lista_colunas = ['T1_id', 'T1_nome', '       T1_id_fatura', 'T1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                 'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', '  T1_num', '    T1_cep', 'T1_cidade', 'T1_uf',
                 'T1_vl_frete', '     T2_tp_promo4', '  T3_vl_promo1', 'T4_vl_sv', 'T5_qt_doado']

In [14]:
pattern = 'T1|T4'
colunas_final = []

for coluna in lista_colunas:
    if re.findall(pattern, coluna):
        colunas_final.append(coluna)

print(colunas_final)

['T1_id', 'T1_nome', '       T1_id_fatura', 'T1_cd_sku', 'T4_vl_total', 'T1_tipo_frete', 'T1_rua', '  T1_num', '    T1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete', 'T4_vl_sv']


### Conjuntos
O padrão **CONJUNTOS** nos permite encontrar **grupos de carácteres** e é construído através da notação `'[]'`. Por exemplo, o padrão `'[Aa]ula'` econtrará tanto a palavra `'Aula'` quanto a palavra `'aula'`. O **CONJUNTO** opera como um carácter: o REGEX irá buscar todos os carácteres dentro do conjunto, no exemplo acima *A* e *a*, na posição especifica do padrão (no exemplo, no primeiro caractér).

In [33]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = '[Mm][Ee][Uu]'

re.findall(pattern, text)

['Meu']

In [34]:
text = 'Meu mEU MeUDEOS EMU'
pattern = '[Mm][Ee][Uu]'

re.findall(pattern, text)

['Meu', 'mEU', 'MeU']

In [35]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = '[Pp]ata'

re.findall(pattern, text)

['Pata', 'pata']

In [36]:
text = 'Patas pata pAta fAta fAca'
pattern = '[pPasdfaaPPpa2][Aa][ct]a'

re.findall(pattern, text)

['Pata', 'pata', 'pAta', 'fAta', 'fAca']

Além de utilizar **CONJUNTOS** podemos utilizar o operador `'|'` para encadear padrões (por exemplo, `'[Oo]deio|[Rr]egex'`), retornando todas as ocorrências tanto do primeiro quanto do segundo padrão (no exemplo acima, tanto os strings `Odeio` e `odeio` quanto os strings `Regex` e `regex`).

In [38]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas pintadas de Cachorro.'
pattern = '[Pp]ata|[Cc]achorro'
re.findall(pattern, text)

['Pata', 'cachorro', 'pata', 'Cachorro']

#### Desafio

Vamos alterar nosso loop de contagem de caracteres iniciais para, ao invés de contar apenas `ca`s e `pa`s, contar as sequencias de todas as variações de maiúscula e minúscula desses dois carácteres (`Ca`, `CA`, `cA`, `ca`, etc...)

In [41]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas. Curiosamente, eles se chamam: CACHORRO, cachorro, cAchorro, pAta e PATA!'

In [45]:
lista_palavras = text.split()
#print(lista_palavras)
dict_contagem = dict()
pattern = '[Cc][Aa]|[Pp][Aa]'

for palavra in lista_palavras:
    silaba = re.findall(pattern, palavra)
    
    if silaba:
        #print(f'Encontrei ca ou pa na palavra {palavra}!')
        for cada_uma_errada in silaba:
            cada_uma = cada_uma_errada.lower()
            if cada_uma not in dict_contagem.keys():
                dict_contagem[cada_uma] = 1
            else:
                dict_contagem[cada_uma] = dict_contagem[cada_uma] + 1
    else:
        if 'outros' in dict_contagem.keys():
            dict_contagem['outros'] = dict_contagem['outros'] + 1
        else:
            dict_contagem['outros'] = 1

print(dict_contagem)

{'outros': 15, 'pa': 4, 'ca': 5}


#### Conjuntos na prática
Vamos voltar ao exemplo da lista de colunas, mas desta vez os nomes das tabelas podem vir tanto como maiúsculas (T1) quanto minúsculas (t1). Precisamos encontrar todas as colunas das tabelas T1 (t1) e T2 (t2). Quando os padrões que buscamos ficam mais complexos, fica clara a vantagem na utilização de um REGEX vs os métodos básicos de strings.

In [46]:
# Extrair todas as colunas da T1 ou da T2
lista_colunas = ['T1_id', 't1_nome', 'T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                 'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
                 'T1_vl_frete', 't2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']


In [47]:
lista_colunas_T1T2 = []
pattern = '[Tt][12]'

for coluna in lista_colunas:    
    if re.findall(pattern, coluna):
        lista_colunas_T1T2.append(coluna)
        
print(lista_colunas_T1T2)

['T1_id', 't1_nome', 'T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf', 'T1_vl_frete', 't2_tp_promo']


## Função .sub()

Além de encontrar padrões, podemos realizar a substituição de padrões através da função `sub("PADRÃO_DE", "STRING_PARA", "STRING_ORIGINAL")` com argumentos:

- **PADRÃO_DE**: o padrão que vamos buscar;
- **STRING_PARA**: o string pelo qual vamos substituir todo padrão encontrado;
- **STRING_ORIGINAL**: o string no qual vamos fazer as substituições.

In [50]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = '[Pp]ata'
nova_pattern = '1'
print(re.sub(pattern, nova_pattern, text))

Meu vizinho, o Sr. 1, tem 5 cachorros e cada um tem 4 1s.


Podemos utilizar a função `sub()` para fazer a limpeza de strings semi-estruturados, por exemplo, nossa lista de colunas!

In [25]:
lista_colunas = ['T1_id', 't1_nome', 'T1_id_fatura', 't1_cd_sku', 'T2_cd_promo', 'T3_qt_vendido', 'T4_vl_total', 
                 'T5_vl_custo', 'T1_tipo_frete', 'T1_rua', 'T1_num', 'T1_cep', 'T1_cidade', 'T1_uf',
                 'T1_vl_frete', 't2_tp_promo', 'T3_vl_promo', 'T4_vl_sv', 'T5_qt_doado']

t1_
t2_
T9_


In [51]:
lista_colunas_limpa = []
pattern = '[Tt][0123456789]_'
new_pattern = ''
for coluna in lista_colunas:
    lista_colunas_limpa.append(re.sub(pattern, new_pattern, coluna))
print(lista_colunas_limpa)

['id', 'nome', 'id_fatura', 'cd_sku', 'cd_promo', 'qt_vendido', 'vl_total', 'vl_custo', 'tipo_frete', 'rua', 'num', 'cep', 'cidade', 'uf', 'vl_frete', 'tp_promo', 'vl_promo', 'vl_sv', 'qt_doado']


## Conjuntos Especiais
Como vimos no exemplo anterior, é comum utilizar grupos mais ou menos bem definidos de carácters - todas as letras ou todos os números, por exemplo. REGEX nos dá uma série de atalhos para construir conjuntos complexos sem precisarmos especificar diretamente cada elemento do conjunto.

1. `[a-z]`: Qualquer letra minúsculas;
1. `[A-Z]`: Qualquer letra maiúsculas;
1. `[0-9]`: Qualquer digito entre 0 e 9;
1. `[A-Za-z]`: Todas as letras;
1. `[À-ž]`: Todos os diacriticos (letras com acentos).

In [53]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = r'[A-Za-z][A-Za-z][A-Za-z]'
re.findall(pattern, text)

['Meu', 'viz', 'inh', 'Pat', 'tem', 'cac', 'hor', 'ros', 'cad', 'tem', 'pat']

In [54]:
text

'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'

In [55]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cães e cada um tem 4 patas còes.'
pattern = r'c[A-Za-zÀ-ž]e[A-Za-z]'

re.findall(pattern, text)

['cães', 'còes']

. `^` is equivalent to NOT

In [29]:
r'[A-Za-z0-9À-ž]'

'[A-Za-z0-9À-ž]'

In [58]:
pattern = '[^A-Za-z0-9À-ž ]'

re.findall(pattern, text)

[',', '.', ',', '.']

In [60]:
pattern = '[^A-Za-z0-9À-ž ]'
nova_pattern = ' '
novo_text = re.sub(pattern, nova_pattern, text)
print(novo_text)

Meu vizinho  o Sr  Pata  tem 5 cães e cada um tem 4 patas còes 


In [61]:
text.split()

['Meu',
 'vizinho,',
 'o',
 'Sr.',
 'Pata,',
 'tem',
 '5',
 'cães',
 'e',
 'cada',
 'um',
 'tem',
 '4',
 'patas',
 'còes.']

#### Desafio

Vamos alterar nosso loop de contagem de caracteres iniciais para, ao invés de contar apenas `ca`s e `pa`s, contar todas as sequencias de 2 caracteres no início de palavras!

In [63]:
lista_palavras

['Meu',
 'vizinho,',
 'o',
 'Sr.',
 'Pata,',
 'tem',
 '5',
 'cães',
 'e',
 'cada',
 'um',
 'tem',
 '4',
 'patas',
 'còes.']

In [70]:
lista_palavras = text.split()
#print(lista_palavras)
dict_contagem = dict()
pattern = '[A-Za-z][A-Za-z]'

for palavra in lista_palavras:
    silaba = re.findall(pattern, palavra)
    
    if silaba:
        #print(f'Encontrei ca ou pa na palavra {palavra}!')
        for cada_uma_errada in silaba:
            if palavra.startswith(cada_uma_errada):
                cada_uma = cada_uma_errada.lower()
                if cada_uma not in dict_contagem.keys():
                    dict_contagem[cada_uma] = 1
                else:
                    dict_contagem[cada_uma] = dict_contagem[cada_uma] + 1
    else:
        if 'outros' in dict_contagem.keys():
            dict_contagem['outros'] = dict_contagem['outros'] + 1
        else:
            dict_contagem['outros'] = 1

print(dict_contagem)

{'me': 1, 'vi': 1, 'outros': 4, 'sr': 1, 'pa': 2, 'te': 2, 'ca': 1, 'um': 1}


Como podemos realizar a mesma tarefa sem utilizar o método split? **DICA** qual o tipo de elemento retornado pelo `findall()`? Porque ele retorna este tipo?

## Meta-Carácteres 

Characters that don't mean what they are.

1. `\w`: Qualquer carácter alfa-numérico;
3. `\d`: Qualquer número;
7. `.` : Qualquer carácter exceto o newline - `\n`.

In [80]:
text = 'Meu vizinho, o Sr. Pata, tem 5 cachorros e cada um tem 4 patas.'
pattern = r'\d' # equivalente à '\\d', [0-9]

print(re.findall(pattern, text))

['5', '4']


In [81]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'\d' # equivalente à '\\d'

print(re.findall(pattern, text))

['5', '0', '4']


In [87]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cães e cada um tem 4 patas.'
pattern = r'[^\w]' # equivalente à '\\w'

print(re.findall(pattern, text))

[' ', ',', ' ', ' ', '.', ' ', ',', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '.']


In [85]:
''.join(re.findall(pattern, text))

'MeuvizinhooSrPatatem50cãesecadaumtem4patas'

In [89]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros\n e cada um tem 4 patas.'
pattern = r'.'

print(re.findall(pattern, text))

['M', 'e', 'u', ' ', 'v', 'i', 'z', 'i', 'n', 'h', 'o', ',', ' ', 'o', ' ', 'S', 'r', '.', ' ', 'P', 'a', 't', 'a', ',', ' ', 't', 'e', 'm', ' ', '5', '0', ' ', 'c', 'a', 'c', 'h', 'o', 'r', 'r', 'o', 's', ' ', 'e', ' ', 'c', 'a', 'd', 'a', ' ', 'u', 'm', ' ', 't', 'e', 'm', ' ', '4', ' ', 'p', 'a', 't', 'a', 's', '.']


## Quantificadores
1. `*`: 0 ou mais;
2. `?`: 0 ou 1;
3. `+`: Pelo menos 1;

In [90]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'\w\w'

re.findall(pattern, text)

['Me',
 'vi',
 'zi',
 'nh',
 'Sr',
 'Pa',
 'ta',
 'te',
 '50',
 'ca',
 'ch',
 'or',
 'ro',
 'ca',
 'da',
 'um',
 'te',
 'pa',
 'ta']

In [91]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'[A-Za-z]*'

re.findall(pattern, text)

['Meu',
 '',
 'vizinho',
 '',
 '',
 'o',
 '',
 'Sr',
 '',
 '',
 'Pata',
 '',
 '',
 'tem',
 '',
 '',
 '',
 '',
 'cachorros',
 '',
 'e',
 '',
 'cada',
 '',
 'um',
 '',
 'tem',
 '',
 '',
 '',
 'patas',
 '',
 '']

In [92]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'[A-Za-z]+'

re.findall(pattern, text)

['Meu',
 'vizinho',
 'o',
 'Sr',
 'Pata',
 'tem',
 'cachorros',
 'e',
 'cada',
 'um',
 'tem',
 'patas']

In [93]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'\w+'

re.findall(pattern, text)

['Meu',
 'vizinho',
 'o',
 'Sr',
 'Pata',
 'tem',
 '50',
 'cachorros',
 'e',
 'cada',
 'um',
 'tem',
 '4',
 'patas']

In [94]:
text = 'Meu vizinho, o Sr. Pata, tem 50 cachorros e cada um tem 4 patas.'
pattern = r'\d+'

re.findall(pattern, text)

['50', '4']

In [95]:
text = 'Meu vizinho, o Sr. Pata, tem 5,5 cachorros e cada um tem 4 patas.'
pattern = r'[0-9]+'

re.findall(pattern, text)

['5', '5', '4']

#### DESAFIO
Vamos construir um padrão que encontre não apenas números inteiros mas também decimais!

In [102]:
text = 'Meu vizinho, o Sr. Pata, tem 5,55 cachorros e cada um tem 4.3 patas.'
pattern = r'\d+[.,]?\d*'

re.findall(pattern, text)

['5,55', '4.3']

In [105]:
text = 'Meu vizinho, o Sr. Pata, tem 5,55 cachorros e cada um tem 4.3 patas.'
pattern = r'\d+[.,]?\d*'

re.findall(pattern, text)

['5,55', '4']

# Exercícios

## Exercício 1
Crie uma lista com todas as linhas distintas do string abaixo que comecem com carácter `>` seguido de uma letra ou um número.

In [106]:
import re

str="""
>Venues
>Marketing
>medalists
>Controversies
>Paralympics
>snowboarding
>[1]
>Netherlands
>[2]
>Norway
>[10]
>[11]
>References
>edit
>[12]
>Norway
>Germany
>Canada
>Netherlands
>Japan
>Italy
>Belarus
>China
>Slovakia
<$#%#$%
<#$#$$
<**&&^^
>Slovenia
>Belgium
>Spain
>Kazakhstan
>[15]
>1964
>1968
>1972
>1992
>1996
>2000"""

#Type your answer here.
pattern = r'>\w+'
data=re.findall(pattern, str)

print(data)

['>Venues', '>Marketing', '>medalists', '>Controversies', '>Paralympics', '>snowboarding', '>Netherlands', '>Norway', '>References', '>edit', '>Norway', '>Germany', '>Canada', '>Netherlands', '>Japan', '>Italy', '>Belarus', '>China', '>Slovakia', '>Slovenia', '>Belgium', '>Spain', '>Kazakhstan', '>1964', '>1968', '>1972', '>1992', '>1996', '>2000']


## Exercício 2
Um uso comum de REGEX é a extração de strings estruturados, como e-mails e telefones, de um corpo de texto. Crie um padrão para extrair todos os endereços de e-mail do texto abaixo.

In [117]:
import re

str='The advancements in biomarine studies franky_lima.pedro@google.net.br with the investments necessary and Davos sinatra123@yahoo.com Then The New Yorker article on wind farms follow us on twitter@pedrotechel '
#Type your answer here.
pattern = r'[\w_.-]+@[\w.]+'
emails=re.findall(pattern, str)


print(emails)

['franky_lima.pedro@google.net.br', 'sinatra123@yahoo.com', 'twitter@pedrotechel']


Crie um segundo padrão para extrair apenas os domínios dos e-mails encontrados no texto (`google.com` e `yahoo.com`)

In [126]:
pattern = r'@[\w]+\.[\w.]+'
domains=re.findall(pattern, str)

domains_limp = []
for end in domains:
    domains_limp.append(end.replace('@', ''))
    
domains_limp

['google.net.br', 'yahoo.com']

## Exercício 3

Muitas vezes utilizamos REGEX para **estruturar** um string - transformando um texto livre em uma lista, ou em uma tabela. Construa um padrão para guardar em uma lista todos os números que começam com `212`.

In [132]:
import re

str='''
Ancient Script 212: The Takenouchi documents are the ancient historical records that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932 
Ancient Script 21298: The Takenouchi documents are the ancient historical records that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932 
Ancient Sword 21299: The Takenouchi swords are the ancient historical swords that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932
Ancient Jewelry 21300: The Takenouchi gems are the ancient historical jewels that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932
'''

pattern = r'212\d*:'
data=re.findall(pattern, str)

print(data)

['212:', '21298:', '21299:']


Construa outro padrão para extrair a linha completa de informação associada a cada artefato cujo ID (21298, 21299, 21300) começa com 212.

In [138]:
pattern = r'.*212\d*:.*'
data=re.findall(pattern, str)

print(data)

['Ancient Script 212: The Takenouchi documents are the ancient historical records that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932 ', 'Ancient Script 21298: The Takenouchi documents are the ancient historical records that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932 ', 'Ancient Sword 21299: The Takenouchi swords are the ancient historical swords that have been secretly preserved and passed down from generation to generation by the Takenouchi family, the head of family being the chief priest of the Koso Kotai Jingu shrine. 212-111-5932']


# Desafios

Caso você complete os três exs. antes do final da aula, continue praticando utilizando plataformas de exercicios:

https://www.hackerrank.com/domains/regex - Hackerrank possui toda uma trilha de aprendizagem associada à REGEX;
https://regexone.com/lesson/introduction_abcs - REGEXONE traz não apenas exercícios mas também breves lições sobre os conceitos abordados em cada ex.

A única forma de aprender e ganhar confiança na construção de padrões é construindo padrões!