Vimos como extrair informações de dados no formato string com o uso do método extractall e expressões regulares simples.

Expressões regulares são strings que descrevem um padrão de pesquisa que pode ser utilizado para combinar ou substituir padrões dentro de uma string com uma quantidade mínima de esforço. Podem ser utilizadas em tarefas de procura, substituição, validação e filtragem de strings.

Usamos a seguinte expressão para extrair de um conjunto de strings os seus valores numéricos: (\d+)

Os parênteses (()) são utilizados para definir um grupo dentro da expressão, o (\d) indica que procuramos por dígitos numéricos de 0 a 9 e o sinal de mais (+) significa "corresponder a um ou mais" da expressão anterior a ele. Mas imagine que agora estamos procurando por números de CEP ou números telefônicos dentro de sequências de texto. Considere a seguinte Series com informações de um grupo de pessoas:

In [None]:
import pandas as pd

pessoas = pd.Series([
    'Nome: Mariana Sousa | End.: Rua Damasco, 1978 Japeri-RJ 26.473-790 | Tel.: (21) 99131-8473',
    'Nome: Aline Cardoso | End.: Rua Paschoal Marmirolli, 577 Sumaré-SP 13.171-700 | Tel.: (19) 8577-4777',
    'Nome: Vitór Fernandes | Tel.: (21) 5923-5723 | End.: Rua Bernardo Franco, 1520 São Gonçalo-RJ 24.470-190',
    'Nome: Victor Sousa | Tel.: (11) 98618-2626 | End.: Rua Santa Terezinha, 27 Suzano-SP 08.694-410',
    'Nome: Vitória Dias | Tel.: (19) 97632-5829 | End.: Rua 4 JA, 500 Rio Claro-SP 13.506-010',
    'Nome: Douglas Santos | Tel.: (11) 4890-8192 | End.: Rua Alcides Teodoro Santos, 1268 São Paulo-SP 05.762-010',
    'Nome: Kauan Pinto | Tel.: (14) 6752-6858 | End.: Rua Amélia Volta Laplechade, 1334 Marília-SP 17.511-801',
    'Nome: Miguel Silva | End.: Rua Severina Ferreira, 1408 João Pessoa-PB 58.034-160 | Tel.: (83) 7077-6476',
    'Nome: Luis Castro | Tel.: (31) 97711-4493 | End.: Rua São Bento, 969 Ribeirão das Neves-MG 33.930-290',
    'Nome: Thiago Almeida | Tel.: (18) 2031-3622 | End.: Rua Liberdade, 669 Araçatuba-SP 16.015-425'
])

Note que cada registro da Series pessoas contém uma string com as informações de nome, telefone e endereço das pessoas, e que estas informações não se encontram sempre nesta ordem, exceto pela informação sobre o nome.

Observe que na informação sobre o endereço de cada pessoa temos o CEP que vem no seguinte formato: XX.XXX-XXX. Vamos construir uma expressão regular para extrair essa informação das strings da Series pessoas.

In [None]:
pessoas.str.extractall('(\d{2}.\d{3}-\d{3})')

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,26.473-790
1,0,13.171-700
2,0,24.470-190
3,0,08.694-410
4,0,13.506-010
5,0,05.762-010
6,0,17.511-801
7,0,58.034-160
8,0,33.930-290
9,0,16.015-425


Veja que você também pode especificar o número exato de correspondências com o uso de números dentro da chaves:


*   **{n}:** exatamente n ocorrências
*   **{n,}:** n ou mais ocorrências
*   **{n,}:** n ou mais ocorrências
*   **{,m}:** no máximo m ocorrências
*   **{n,m}:** entre n e m ocorrências


No código anterior, \d{2} indica que naquela posição devemos ter exatamente dois dígitos numéricos.

Outro ponto que deve ser observado quando criamos uma expressão regular é que quando precisamos especificar caracteres dentro de uma string que já são utilizados como operadores dentro de uma expressão regular, como por exemplo os parênteses, precisamos utilizar o caractere de escape (\) antes para denotar que o respectivo caractere não se trata de um operador da expressão e sim um caractere que desejamos extrair da string.

Muito bem, hora de colocar a mão na massa. Observe que as strings da Series pessoas também apresentam as informações de números de telefones. Crie uma expressão regular para extrair estes números. Note que alguns números têm tamanhos diferentes (celulares e fixos).

Assinale a resposta com o código correto.

**Dica:** Em expressões regulares, \s representa espaço em branco.

In [None]:
pessoas.str.extractall('(\(\d{2}\)\s\d{4,5}-\d{4})')

Unnamed: 0_level_0,Unnamed: 1_level_0,0
Unnamed: 0_level_1,match,Unnamed: 2_level_1
0,0,(21) 99131-8473
1,0,(19) 8577-4777
2,0,(21) 5923-5723
3,0,(11) 98618-2626
4,0,(19) 97632-5829
5,0,(11) 4890-8192
6,0,(14) 6752-6858
7,0,(83) 7077-6476
8,0,(31) 97711-4493
9,0,(18) 2031-3622


Junto com o atributo str de um Series também é possível utilizar outros métodos de tratamento de strings bastante úteis em projetos de data science.

Os métodos upper e lower são bons exemplos de métodos úteis durante procedimentos de comparação envolvendo strings. O método upper converte todos os caracteres de uma string para maiúsculo e o método lower faz o contrário.

Outro método bastante útil é o contains. Com este método podemos testar se determinado trecho de texto está contido em uma string dentro de uma Series. No método contains também podemos utilizar expressões regulares (default) e também passar apenas trechos de texto, bastando para isso configurar o parâmetro regex como False.

Feitas estas considerações, considere a Series anuncios abaixo para responder a questão:

In [11]:
anuncios = pd.Series([
    "Amplo apartamento com vista para o mar, piscina, sauna e 2 vagas de garagem. CEP 22790-735",
    "Ótima oportunidade no Leblon! Casa de condomínio com 800m² próximo a praia.",
    "Sala e quarto em Copacabana. Próximo ao metrô.",
    "Venha morar na melhor localização do Rio de Janeiro. Piscina, academia e toda estrutura de lazer.",
    "Sala comercial no Centro da cidade. 23456-021",
    "Venha conhecer o melhor de Ipanema. A duas quadras da praia. Conheça o apartamento mobiliado.",
    "Melhor localização da Barra. Condomínio com piscina, academia, espaço gourmet e muito mais.",
    "Vende-se terreno em Pedra de Guaratiba. Tratar direto com o proprietário.",
    "Apartamento de alto padrão na Lagoa. Vista pro mar e sol da manhã.",
    "Passo o ponto de loja no centro da cidade (Saara). Ligar para (21) 1234-5678 e falar com Juca."
])

Utilizando as informações acima, marque as opções que apresentam os códigos capazes de identificar os três registros que contêm a palavra piscina.

In [12]:
anuncios.str.upper().str.contains('PISCINA', regex=False)

0     True
1    False
2    False
3     True
4    False
5    False
6     True
7    False
8    False
9    False
dtype: bool

In [17]:
anuncios.str.lower().str.contains('piscina', regex=False)

0     True
1    False
2    False
3     True
4    False
5    False
6     True
7    False
8    False
9    False
dtype: bool