# **Funções e a classe ```Match```**

Neste notebook versaremos sobre algumas funções e o objeto ```match```, que são úteis para selecionar determinadas informações contidas em strings. Aqui supomos que vossa senhoria já tenha noção sobre os metacaracteres. Caso contrário, basta acessar https://github.com/gabrielnrt/Aprendizado/blob/main/Bibliotecas%20Python/RegEx/Caracteres.ipynb.

Para vermos na prática as funções, usaremos strings de endereços.

In [1]:
texto1 = 'Alameda Santos, 981 - Jardim Paulista, São Paulo - SP, 01419-001'

texto2 = 'R. Sérgio Buarque de Holanda, 777 - Cidade Universitária, Campinas - SP, 13083-859'

texto3 = 'R. Serra de Paracaína, 132 - Cambuci, São Paulo - SP, 01522-020'

texto4 = 'Av. Paulista, 1811 - Bela Vista, São Paulo - SP, 01311-200'

## **```findall()```**

A função ```findall()``` possui como parâmetros a expressão que queremos encontrar e a string que contém essa informação; e retorna uma lista contendo todas as ocorrências dessa expressão. Caso não encontre alguma expressão na string, a função retorna uma lista vazia.

Essa função é chamada digitando

In [2]:
from re import findall

Para começar, buscaremos em cada uma dessas strings o nome da rua. Das diferentes formas que podemos realizar essa tarefa, usaremos a regex ```'(^[A-Z]\D+),'```. 

O ```[A-Z]``` indica que o nome da rua começa com uma letra maiúscula, já o ```\D+``` indica que essa letra maiúscula é seguida de um ou mais caracteres que não são dígitos. A ```,``` indica que depois dessa seqência de caracteres que não são dígitos, vem uma vírgula. Por fim, colocamos ```^``` para indicar que essa informação está no começo da string e o ```()``` com a vírgula de fora pois não queremos coletá-la na busca.

Obs: para encontrar essa regex, usamos o site https://regex101.com/ para testar os metacaracteres.

In [3]:
regex = '(^[A-Z]\D+),'

findall(regex, texto1)

['Alameda Santos']

Note que a regex ```'(.+?),'``` também nos daria a resposta, mas também outras strings:

In [4]:
regex = '(.+?),'

findall(regex,texto1)

['Alameda Santos', ' 981 - Jardim Paulista', ' São Paulo - SP']

Tanto para um caso quanto o outro, o objeto retornado é uma lista. Então, devemos acessar o primeiro elemento para coletar a string.

In [5]:
findall(regex, texto1)[0]

'Alameda Santos'

Armazenando as ruas numa lista, temos

In [6]:
Ruas = []

for texto in [texto1,texto2,texto3,texto4]:
    rua = findall(regex,texto)[0]
    Ruas.append(rua)
    
Ruas

['Alameda Santos',
 'R. Sérgio Buarque de Holanda',
 'R. Serra de Paracaína',
 'Av. Paulista']

## **```search()```**

A função ```search()```, invocada ao digitar ```from re import search```, recebe como 1º parâmetro a expressão regular que queremos encontrar, e depois a string onde a regex será aplicada, que nem na função ```findall()```, mas nesse caso ela retorna ```None``` se não houver ocorrências da regex na string, e o objeto ```match``` caso contrário. 

Vejamos o primieiro caso.

In [8]:
from re import search

print(search('tamanduá', texto1))

None


Agora vejamos o que temos quando imprimimos o objeto ```match```. Aqui, coletaremos o número da rua:

In [20]:
regex = '(\d{3}) -'

objeto = search(regex,texto1)

objeto

<re.Match object; span=(16, 21), match='981 -'>

Dentre os atributos e métodos, destacaremos o atributo ```string```, que é basicamente a string que passamos para checar a regex,

In [26]:
objeto.string

'Alameda Santos, 981 - Jardim Paulista, São Paulo - SP, 01419-001'

e o método ```group()```, que retorna 1 ou mais subgrupos do match. Por padrão, ele está como 0, o que significa que ele retorna a regex inteira sem considerar o(s) agrupamento(s) feito(s). 

Vendo a resposta padrão, temos

In [27]:
objeto.group()

'981 -'

In [28]:
objeto.group(0)

'981 -'

Caso quiséssemos ver a string que agrupamos, a parte de dentro dos parênteses da regex, basta colocar ```1``` no argumento.

In [29]:
objeto.group(1)

'981'

Fazendo isso com todos os endereços.

In [30]:
Numeros = []

for texto in [texto1,texto2,texto3,texto4]:
    objeto = search(regex, texto)
    Numeros.append(objeto.group(1))
    
Numeros

['981', '777', '132', '811']