In [1]:
import pandas as pd
import numpy as np
import re

# Advanced REGEX

Como vimos na aula de `strings` muitas vezes a forma mais simples de manipularmos um `string` é utilizando padrões REGEX.

A utilização de REGEX é calcada na construção de **padrões**: ao invés de definir buscas simples (como quando procuramos uma sequência específica de caractéres), o REGEX nos permite construir padrões flexíveis, capaz de *encontrar*  sub-strings distintos. Já vimos como construir alguns padrões simples: hoje faremos uma revisão rápida dos conceitos básicos de REGEX e introduziremos novos conceitos, como grupos e os qualificadores para fim e começo.

## Revisão de Expressões Regulares

https://regexr.com/

O aspecto fundamental para a utilização de REGEX é a construção do padrão de busca. Vamos revisar alguns 

In [3]:
texto = '''
        Quando certa manhã Gregor Samsa acordou de sonhos intranquilos,
        encontrou-se em sua cama metamorfoseado num inseto monstruoso.
        '''

In [4]:
texto

'\n        Quando certa manhã Gregor Samsa acordou de sonhos intranquilos,\n        encontrou-se em sua cama metamorfoseado num inseto monstruoso.\n        '

### Padrões e Conjuntos

A forma mais simples de utilizarmos um padrão é através de uma busca por *sub-string*. Padrões que não contém conjuntos ou carácteres especiais são chamados de **padrões literais**.

#### Busca Literal

In [7]:
print(re.findall('Samsa', texto))

['Samsa']


In [8]:
print(re.findall('so', texto))

['so', 'so']


In [9]:
print(re.findall('SO', texto))

[]


In [10]:
print(re.findall('samsa', texto))

[]


In [11]:
print(re.findall('metamorfose', texto))

['metamorfose']


In [12]:
print(re.findall('samsa', texto.lower()))

['samsa']


#### Conjuntos

Podemos utilizar conjuntos para expandir nossa capacidade de busca. Vamos começar construindo um conjunto através do operador OR (`|`).

##### Exemplo 1: `m|e|t|a|m|o|r|f|o|s|e`

In [13]:
print(re.findall('m|e|t|a|m|o|r|f|o|s|e', texto))

['a', 'o', 'e', 'r', 't', 'a', 'm', 'a', 'r', 'e', 'o', 'r', 'a', 'm', 's', 'a', 'a', 'o', 'r', 'o', 'e', 's', 'o', 'o', 's', 't', 'r', 'a', 'o', 's', 'e', 'o', 't', 'r', 'o', 's', 'e', 'e', 'm', 's', 'a', 'a', 'm', 'a', 'm', 'e', 't', 'a', 'm', 'o', 'r', 'f', 'o', 's', 'e', 'a', 'o', 'm', 's', 'e', 't', 'o', 'm', 'o', 's', 't', 'r', 'o', 's', 'o']


In [14]:
print(re.findall('[metamorfose]', texto))

['a', 'o', 'e', 'r', 't', 'a', 'm', 'a', 'r', 'e', 'o', 'r', 'a', 'm', 's', 'a', 'a', 'o', 'r', 'o', 'e', 's', 'o', 'o', 's', 't', 'r', 'a', 'o', 's', 'e', 'o', 't', 'r', 'o', 's', 'e', 'e', 'm', 's', 'a', 'a', 'm', 'a', 'm', 'e', 't', 'a', 'm', 'o', 'r', 'f', 'o', 's', 'e', 'a', 'o', 'm', 's', 'e', 't', 'o', 'm', 'o', 's', 't', 'r', 'o', 's', 'o']


In [15]:
re.findall('[metamorfose]', texto) == re.findall('m|e|t|a|m|o|r|f|o|s|e', texto)

True

##### Exemplo 2: Cidade de São Paulo

In [18]:
text = 'São Paulo Sao Paulo Sáo Paulo Sun Paulo seu paulo san paolo sao paula são paolo sAo Paolo sao_paulo'

pattern = r'[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]l[oa]'
re.findall(pattern, text)

['São Paulo',
 'Sao Paulo',
 'Sáo Paulo',
 'Sun Paulo',
 'seu paulo',
 'san paolo',
 'sao paula',
 'são paolo',
 'sAo Paolo',
 'sao_paulo']

In [19]:
re.sub(pattern, 'São Paulo', text)

'São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo São Paulo'

In [20]:
nomes_sp = ['São Paulo', 'Sao Paulo', 'Sáo Paulo', 
            'Sun Paulo', 'seu paulo', 'san paolo', 
            'sao paulo', 'são paolo', 'sAo Paolo', 
            'sao_paulo', 'Rio de Janeiro']
print(nomes_sp)

['São Paulo', 'Sao Paulo', 'Sáo Paulo', 'Sun Paulo', 'seu paulo', 'san paolo', 'sao paulo', 'são paolo', 'sAo Paolo', 'sao_paulo', 'Rio de Janeiro']


In [21]:
pattern = r'[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]l[oa]'
re.sub(pattern, 'São Paulo', nomes_sp)

TypeError: expected string or bytes-like object

In [22]:
print(re.sub(pattern, 'São Paulo', nomes_sp[0]))

São Paulo


In [23]:
print(re.sub(pattern, 'São Paulo', nomes_sp[1]))

São Paulo


In [24]:
nome_sp_limpo = [re.sub(pattern, 'São Paulo', nome) for nome in nomes_sp]
print(nome_sp_limpo)

['São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'São Paulo', 'Rio de Janeiro']


Vamos transformar a lista acima em um DataFrame:

In [26]:
tb_nomes = pd.DataFrame({'nome' : nomes_sp})
tb_nomes

Unnamed: 0,nome
0,São Paulo
1,Sao Paulo
2,Sáo Paulo
3,Sun Paulo
4,seu paulo
5,san paolo
6,sao paulo
7,são paolo
8,sAo Paolo
9,sao_paulo


Como podemos utilizar a função `re.sub()` para limpar a coluna `nome`?

In [27]:
# DESAFIO
# re.sub(pattern, 'São Paulo', nome)
pattern = r'[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]l[oa]'

tb_nomes['nome'].map(lambda x: re.sub(pattern, 'São Paulo', x))

0          São Paulo
1          São Paulo
2          São Paulo
3          São Paulo
4          São Paulo
5          São Paulo
6          São Paulo
7          São Paulo
8          São Paulo
9          São Paulo
10    Rio de Janeiro
Name: nome, dtype: object

In [29]:
tb_nomes['nome'].map(re.sub('[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]l[oa]', 'São Paulo', nome))

NameError: name 'nome' is not defined

In [31]:
def limpar_sp(nome_cidade):
    return re.sub('[Ss][ãaáàâAÃÁÀâeu][oun][ _][Pp]a[uo]l[oa]', 'São Paulo', nome_cidade)

tb_nomes['nome'].map(limpar_sp)

0          São Paulo
1          São Paulo
2          São Paulo
3          São Paulo
4          São Paulo
5          São Paulo
6          São Paulo
7          São Paulo
8          São Paulo
9          São Paulo
10    Rio de Janeiro
Name: nome, dtype: object

Qualquer coisa entre `[]`, em padrão REGEX, é um conjunto! Pensando nos strings de forma posicional, cada conjunto ocupa **apenas uma posição do string**! Por exemplo, o padrão `r'[Ss][AaÃãÂâÁáÀà]` tem comprimento dois: procurando `[Ss]` na primeira posição e `[AaÃãÂâÁáÀà]` na segunda!

##### Atalhos para Conjunto

Podemos utilizar a notação `r'[A-D]'` para construir padrões contendo todos os carácteres entre duas letras.

In [32]:
lista_tarefas = '''
    A) cortar grama
    B) arrumar porta
    C) instalar calha
    D) ligar para Pedro as 9
    '''

In [34]:
re.findall(r'A|B|C|D', lista_tarefas)

['A', 'B', 'C', 'D']

In [35]:
re.findall(r'[ABCD]', lista_tarefas)

['A', 'B', 'C', 'D']

In [36]:
re.findall(r'[A-D]', lista_tarefas)

['A', 'B', 'C', 'D']

In [37]:
re.findall(r'[A-Z]', lista_tarefas)

['A', 'B', 'C', 'D', 'P']

In [38]:
lista_tarefas = '''
    1) cortar grama
    2) arrumar porta
        2a trocar fechadura
    3) instalar calha
    4) ligar para Pedro as 9 9983
    '''
re.findall('1|2|3|4', lista_tarefas)

['1', '2', '2', '3', '4', '3']

In [39]:
re.findall(r'[1234]', lista_tarefas)

['1', '2', '2', '3', '4', '3']

In [40]:
re.findall(r'[1-4]', lista_tarefas)

['1', '2', '2', '3', '4', '3']

In [41]:
re.findall(r'[0-9]', lista_tarefas)

['1', '2', '2', '3', '4', '9', '9', '9', '8', '3']

In [42]:
re.findall(r'[0-9A-Za-z]', lista_tarefas)

['1',
 'c',
 'o',
 'r',
 't',
 'a',
 'r',
 'g',
 'r',
 'a',
 'm',
 'a',
 '2',
 'a',
 'r',
 'r',
 'u',
 'm',
 'a',
 'r',
 'p',
 'o',
 'r',
 't',
 'a',
 '2',
 'a',
 't',
 'r',
 'o',
 'c',
 'a',
 'r',
 'f',
 'e',
 'c',
 'h',
 'a',
 'd',
 'u',
 'r',
 'a',
 '3',
 'i',
 'n',
 's',
 't',
 'a',
 'l',
 'a',
 'r',
 'c',
 'a',
 'l',
 'h',
 'a',
 '4',
 'l',
 'i',
 'g',
 'a',
 'r',
 'p',
 'a',
 'r',
 'a',
 'P',
 'e',
 'd',
 'r',
 'o',
 'a',
 's',
 '9',
 '9',
 '9',
 '8',
 '3']

In [43]:
re.findall(r'[0-9][a-z]', lista_tarefas)

['2a']

Como podemos substituir a lista de tarefas acima de uma lista ordenada (1, 2, 3, 4...) para um lista não-ordenada (*, *, *, *...)?

In [45]:
print(lista_tarefas)


    1) cortar grama
    2) arrumar porta
        2a trocar fechadura
    3) instalar calha
    4) ligar para Pedro as 9 9983
    


In [57]:
print(re.sub(r'[0-9][\)a-z]', '*', lista_tarefas))


    * cortar grama
    * arrumar porta
        * trocar fechadura
    * instalar calha
    * ligar para Pedro as 9 9983
    


In [56]:
text = "[Ola, eu estou entre colchetes]"
re.sub(r'\[', '(', text)

'(Ola, eu estou entre colchetes]'

Os atalhos de conjunto mais úteis são:

* [a-z]: Qualquer letra minúscula;
* [A-Z]: Qualquer letra maiúscula;
* [0-9]: Qualquer digito.

#### Classes de Carácteres

As classes de carácteres são *atalhos* para conjuntos comuns:

* `\d`: carácteres numéricos;
* `\w`: carácteres alfa-numéricos;
* `\s`: espaços;
* `\D`: carácteres não-numéricos.

In [53]:
text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'
pattern = r'\D'
print(re.findall(pattern, text))

['a', 'o', 'i', 'j', 'o', ' ', '(', ' ', ' ', '$', ' ', 'p', ' ', 'i', 'o', ' ', 'x', ' ', '-', 'o', ' ', '=', ' ', ' ', ' ', '™', '¡', '¡', '™', '£', '¡', 'Ω', 'å', ' ', '.', ' ', 'á', 'é', 'ó', 'ã', 'à']


In [55]:
text = 'aoijo (  $ p io x -o = 3232 13 ™¡¡™£¡Ωå 3.1 áéóãà'
pattern = r'[\w\s]'
print(re.findall(pattern, text))

['a', 'o', 'i', 'j', 'o', ' ', ' ', ' ', ' ', 'p', ' ', 'i', 'o', ' ', 'x', ' ', 'o', ' ', ' ', '3', '2', '3', '2', ' ', '1', '3', ' ', 'Ω', 'å', ' ', '3', '1', ' ', 'á', 'é', 'ó', 'ã', 'à']


## Quantificadores 

Assim como os conjuntos tornam os caracteres de uma posição flexíveis (`r'[Aa]'` encontra tanto `A` quanto `a` na primeira posição), os quantificadores tornam o número de posições que um conjunto (ou caractere) ocupam.

* *: Encontra o caractere (ou conjunto) aterior 0 ou mais vezes consecutivas;
* +: Encontra o caractere (ou conjunto) anterior 1 ou mais vezes consecutivas;
* ?: Encontra o caractere (ou conjunto) anterior 0 ou 1 vez.

Por exemplo, o padrão `r'a+'` encontra `'a'`, `'aa'`, `'aaa'`, etc...

In [59]:
text = 'a aa aaa aaaa aaaaa aaa1aaa'
pattern = r'a+'
print(re.findall(pattern, text))

['a', 'aa', 'aaa', 'aaaa', 'aaaaa', 'aaa', 'aaa']


Já o padrão `r'a*'` encontra `''`, `'a'`, `'aaa'`, etc...

In [60]:
text = 'a aa aaa aaaa aaaaa aaaaaa'
pattern = r'a*'
print(re.findall(pattern, text))

['a', '', 'aa', '', 'aaa', '', 'aaaa', '', 'aaaaa', '', 'aaaaaa', '']


Por fim, o padrão `r'ab?a*'` encontra todos os *sub-strings* que começam com `a`, possivelmente são seguidos de 1 `b` e podem ter múltiplos `a`s no final:

1. `a`;
1. `ab`;
1. `aba`;
1. `aa`;
1. `abaa`;
1. `...`

In [62]:
text = 'a aba baaa aaaba aaabbaa aaaaaa'
pattern = r'ab?ab*'
print(re.findall(pattern, text))

['a', 'aba', 'aaa', 'aaa', 'a', 'aaa', 'aa', 'aaaaaa']


In [None]:
'338.362.764-10 331362592-4'
'[0-9]+\.?[0-9]+\.?

Porque o padrão acima separou `aaaba` em `aaa` e `a`?

### Exemplo - Encontrando números

Vamos relembrar de um padrão que construímos em aula: como podemos construir uma lista de números (floats) a partir de um string com números dentro? 

In [63]:
# DESAFIO

text = '3,3 João 45,3 Maria 1000 José ,45'
pattern = r'\d*,?\d*'
print(re.findall(pattern, text))

['3,3', '', '', '', '', '', '', '45,3', '', '', '', '', '', '', '', '1000', '', '', '', '', '', '', ',45', '']


In [65]:
[float(re.sub(',', '.', numero)) for numero in re.findall(pattern, text) if len(numero) > 0]

[3.3, 45.3, 1000.0, 0.45]

In [66]:
[float(numero.replace(',', '.')) for numero in re.findall(pattern, text) if len(numero) > 0]

[3.3, 45.3, 1000.0, 0.45]

## Quantificadores Especiais
O quantificador `{n}` funciona como um `+` controlado: podemos especificar quantas vezes queremos encontrar o caractere (ou conjunto) precendente:

* {n} : Exatamente n-vezes;
* {n,} : Pelo menos n-vezes;
* {n,m} : Entre n e m vezes;

In [67]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'a{1}'
print(re.findall(pattern, text))

['a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a', 'a']


In [69]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'a{2}'
pattern = r'a{2}'
print(re.findall(pattern, text))

['aa', 'aa', 'aa', 'aa', 'aa', 'aa', 'aa']


In [70]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'a{4}'
print(re.findall(pattern, text))

['aaaa', 'aaaa']


In [72]:
text = 'a aba aa baaa aaaba aaaaa aaaaaa'
pattern = r'a{2,}'
print(re.findall(pattern, text))

['aa', 'aaa', 'aaa', 'aaaaa', 'aaaaaa']


In [73]:
text = 'a aba baaa aaaba aaaaa aaaaaa'
pattern = r'a{2,3}'
print(re.findall(pattern, text))

['aaa', 'aaa', 'aaa', 'aa', 'aaa', 'aaa']


#### Exemplo - Encontrando CPFs


Vamos construir um padrão para encontrar número com formato de CPF em um string.

In [None]:
r'\d+.?'

In [79]:
# DESAFIO
text = '368.211.273-23 33921127323 339.211.27323 +55(11)973001365 R$13542 43.544.23023'
pattern = r'[0-9]{1,3}\.?[0-9]{3}\.?[0-9]{3}\-?[0-9a-zA-Z]{1,2}'
print(re.findall(pattern, text))

['368.211.273-23', '33921127323', '339.211.27323', '973001365', '43.544.23023']


## Meta-caracteres

Meta-caracteres são caracteres *especiais*: o REGEX não os interpreta de forma literal. Se quisermos utilizar um meta-caractere literalmente (como o `.` no exemplo do CPF) devemos escapá-lo com `\`.

* `.` : Qualquer caractere exceto newline (`\n`);
* `[^]` : **Dentro de um conjunto** representa a negação (inverte o conjunto);
* `^`: **Fora de um conjunto** representa o começo da linha;
* `$` : Fim da linha;
* `|` : Operador OU;

### Limpando newlines com `.`

O meta-caractere `.` pode ser utilizado para limparmos os `\n` de um string:

In [80]:
text = '''My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not.'''
pattern = r'.'
print(re.findall(pattern, text))

['M', 'y', ' ', 'b', 'o', 's', 's', ' ', 'a', 's', 'k', 'e', 'd', ' ', 'm', 'e', ' ', 't', 'o', ' ', 't', 'u', 'r', 'n', ' ', 'i', 'n', ' ', 'm', 'y', ' ', 'T', 'P', 'S', ' ', 'r', 'e', 'p', 'o', 'r', 't', 's', '.', ' ', 'I', ' ', 't', 'o', 'l', 'd', ' ', 'h', 'i', 'm', ' ', 't', 'h', 'e', 'y', ' ', 'w', 'e', 'r', 'e', ' ', 'd', 'o', 'n', 'e', ',', ' ', 'b', 'u', 't', ' ', 't', 'h', 'e', 'y', ' ', 'a', 'r', 'e', ' ', 'n', 'o', 't', '.']


In [81]:
print(text)

My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not.


In [82]:
text

'My boss asked me to turn in my TPS reports. \nI told him they were done, but they are not.'

In [83]:
print(''.join(re.findall(r'.', text)))

My boss asked me to turn in my TPS reports. I told him they were done, but they are not.


In [84]:
text.replace('\n', '')

'My boss asked me to turn in my TPS reports. I told him they were done, but they are not.'

### Negando Conjuntos

Dentro de um conjunto, o caractere `[^]` representa a negação do conjunto (encontramos tudo **QUE NÃO ESTÁ NO CONJUNTO**). Muitas vezes é mais fácil especificar **O QUE NÃO QUEREMOS** do que o que queremos!

In [86]:
text = """My boss asked me to turn in my TPS reports. 
I told him they were done, but they are not."""
pattern = r'[^a-mA-M]'
print(re.findall(pattern, text))

['y', ' ', 'o', 's', 's', ' ', 's', ' ', ' ', 't', 'o', ' ', 't', 'u', 'r', 'n', ' ', 'n', ' ', 'y', ' ', 'T', 'P', 'S', ' ', 'r', 'p', 'o', 'r', 't', 's', '.', ' ', '\n', ' ', 't', 'o', ' ', ' ', 't', 'y', ' ', 'w', 'r', ' ', 'o', 'n', ',', ' ', 'u', 't', ' ', 't', 'y', ' ', 'r', ' ', 'n', 'o', 't', '.']


In [87]:
print(''.join(re.findall(pattern, text)))

y oss s  to turn n y TPS rports. 
 to  ty wr on, ut ty r not.


### Encontrando padrões no começo ou fim do string

Os caracteres `^` e `$` nos permitem encontrar o começo ou fim, respectivamente, de um string.

In [89]:
text = '''My boss asked me to turn in my TPS reports.
My boss told him they were done, but they are not.'''

In [91]:
pattern = r'My boss.*'
re.findall(pattern, text)

['My boss asked me to turn in my TPS reports.',
 'My boss told him they were done, but they are not.']

In [92]:
pattern = r'^My boss'
re.findall(pattern, text)

['My boss']

In [93]:
pattern = r'^My boss.*'
re.findall(pattern, text)

['My boss asked me to turn in my TPS reports.']

O padrão do REGEX no Python é considerar o começo e fim do **string** como um todo. Podemos alterar esse padrão para que eles encontrem o começo e fim de cada nova linha (criada com `\n`).

In [95]:
pattern = r'^My boss'
re.findall(pattern, text, re.MULTILINE)

['My boss', 'My boss']

In [101]:
text = '''My boss are not asking me to turn in my TPS reports.
My boss told him they were done, but they are not'''
pattern = r'aaa^'
re.findall(pattern, text)

[]

In [102]:
pattern = 'reports.$'
re.findall(pattern, text, re.MULTILINE)

['reports.']

### Aplicando `$` com `*`

In [103]:
text = '''My boss asked me to turn. in my TPS reports.
My boss told him they were done, but they are not.'''

In [104]:
re.findall(r'are not.$', text)

['are not.']

In [105]:
re.findall(r'.are not.$', text)

[' are not.']

In [106]:
re.findall(r'.*are not.$', text)

['My boss told him they were done, but they are not.']

In [107]:
re.findall(r'.*\.$', text, re.MULTILINE)

['My boss asked me to turn. in my TPS reports.',
 'My boss told him they were done, but they are not.']

## Ganância (Greediness)
https://docs.python.org/3/howto/regex.html#greedy-versus-non-greedy

In [108]:
text = 'You are yelling! So I will yell too! Let me yell!'

In [109]:
pattern = r'.*!'
print(re.findall(pattern, text))

['You are yelling! So I will yell too! Let me yell!']


When repeating a regular expression, as in a*, **the resulting action is to consume as much of the pattern as possible.**

In [110]:
pattern = r'[ a-zA-Z]*!'
print(re.findall(pattern, text))

['You are yelling!', ' So I will yell too!', ' Let me yell!']


## Utilizando `grupos`

Até agora, utilizamos padrões para extrair substrings completos. Muitas vezes, no entanto, queremos utilizar um REGEX para extrair múltiplas informações de um mesmo string a partir de uma estrutura determinada. Para isto, usaremos grupos!

https://docs.python.org/3/howto/regex.html#grouping

In [112]:
text = '''
From: author@example.com
User-Agent: Thunderbird 1.5.0.9 (X11/20061227)
MIME-Version: 1.0
To: editor@example.com
'''

In [113]:
pattern = r'(.*):(.*)'
re.findall(pattern, text)

[('From', ' author@example.com'),
 ('User-Agent', ' Thunderbird 1.5.0.9 (X11/20061227)'),
 ('MIME-Version', ' 1.0'),
 ('To', ' editor@example.com')]

In [116]:
{upla[0] : upla[1].strip() for upla in re.findall(pattern, text)}

{'From': 'author@example.com',
 'User-Agent': 'Thunderbird 1.5.0.9 (X11/20061227)',
 'MIME-Version': '1.0',
 'To': 'editor@example.com'}

O resultado de um REGEX feito a partir de um padrão com grupos é uma lista de tuplas. Cada elemento da lista corresponde à um match do padrão completo e cada elemento da tupla corresponde à um grupo do padrão (mesmo que este grupo esteja vazio):

In [120]:
text = '''
From:
User-Agent: Thunderbird 1.5.0.9 (X11/20061227)
MIME-Version: 1.0
To: editor@example.com

Ola o meu nome é Pedro
'''
pattern = r'(.*):(.*)'
re.findall(pattern, text)

[('From', ''),
 ('User-Agent', ' Thunderbird 1.5.0.9 (X11/20061227)'),
 ('MIME-Version', ' 1.0'),
 ('To', ' editor@example.com')]

### Desafio - Separação de Códgio Internacional, DDDs e Telefones

Uma tarefa comum que encontramos no tratamento de `strings` é a separação de um string semi-estruturado (por exemplo, um telefone) em seus componentes.

In [121]:
lista_telefone = ['+55(19)35613675', '+55(11)29934999', '+1(678)818977222', '+1(544)932226172']

In [130]:
pattern = r'\+(\d{1,3})\((\d+)\)(\d+)'
[re.findall(pattern, telefone)[0] for telefone in lista_telefone]

[('55', '19', '35613675'),
 ('55', '11', '29934999'),
 ('1', '678', '818977222'),
 ('1', '544', '932226172')]

In [128]:
pd.DataFrame([re.findall(pattern, telefone)[0] for telefone in lista_telefone],
            columns = [ "ddi", "ddd", "numero"])

Unnamed: 0,ddi,ddd,numero
0,55,19,35613675
1,55,11,29934999
2,1,678,818977222
3,1,544,932226172


# Voltamos 21h17

In [132]:
from datetime import datetime

In [133]:
datetime(2022, 8, 25)

datetime.datetime(2022, 8, 25, 0, 0)

In [139]:
dict_estacao = {"Jan" : "Inverno", "Feb": "Verao"}
teste = pd.DataFrame({"mes": ["Jan"]  *5 + ["Feb"] * 10})

In [140]:
dict_estacao

{'Jan': 'Inverno', 'Feb': 'Verao'}

In [142]:
teste['estacao'] = teste['mes'].map(dict_estacao)

In [143]:
teste

Unnamed: 0,mes,estacao
0,Jan,Inverno
1,Jan,Inverno
2,Jan,Inverno
3,Jan,Inverno
4,Jan,Inverno
5,Feb,Verao
6,Feb,Verao
7,Feb,Verao
8,Feb,Verao
9,Feb,Verao
