<img src='letscodebr_cover.jpeg' align='left' width=100%/>

# Ada Tech [DS-PY-004] Técnicas de Programação I (PY) Aula 8: Expressões regulares.

## Introdução

Uma expressão regular é uma sequência de caracteres que define um **padrão** de pesquisa textual.

As expressões regulares são uma linguagem muito flexível usada para identificar e extrair informações de um corpo de texto.

Uma única expressão, comumente chamada de regex, é uma string de caracteres construída de acordo com a sintaxe da linguagem de expressão regular.

O módulo `re` do Python é responsável por aplicar expressões regulares a strings de caracteres.

As funções do módulo `re` se dividem em três categorias:

* Split: divide uma string de caracteres, usando o padrão definido pela expressão regular como separador.

* Pattern maching: extrai, de uma string de caracteres, as substrings definidas pelo padrão de expressão regular

* Substituição: substitui a sequência de caracteres definida pela expressão regular por outra sequência textual.

### Sintaxe de expressões regulares no Python

#### Metacaracteres

    .  símbolo que indica qualquer caractere com exceção de uma nova linha (\n)
    ^  símbolo indicando início
    $  símbolo que indica o fim
    \  símbolo que escapa caracteres reservados
    |  ou lógico 
    \d símbolo que indica qualquer dígito de 0 a 9
    \w símbolo que indica qualquer caractere alfanumérico (A-Z, a-z, 0-9 y _)
    \s símbolo que indica qualquer espaço em branco (espaço, tabulação, nova linha, etc.)
    \D símbolo indicando qualquer caractere que não seja dígito
    \W símbolo que indica qualquer caractere que não seja alfanumérico
    \S símbolo que indica qualquer caractere que não seja espaço em branco

        
#### Quantificadores

    * símbolo que indica zero ou mais ocorrências
    + símbolo que indica uma ou mais ocorrências
    ?  símbolo indicando que o padrão pode ser opcional (pode ou não ser)
    {m}  onde m é um número inteiro, indica exatamente m repetições
    {m,n}  onde m e n são inteiros, indica pelo menos m repetições e no máximo n repetições

#### Opções 

    [abc]  indica um caractere que pertencente ao conjunto de valores possíveis especificados entre colchetes
    [a-z]  indica um caractere que pertencente ao conjunto de valores possíveis especificados entre colchetes

#### Grupos 
    ( )  define um grupo
    (?P<group_name> ) define um grupo marcado
    
#### Exemplos de sintaxe:

`\d+` encontra números de um dígito ou mais

`.*` encontra strings de qualquer comprimento, mesmo vazias.

`\w{2,6}` encontra um conjunto de caracteres alfanuméricos com um comprimento que varia de 2 a 6 caracteres

`[a-zA-Z]` encontra o mesmo que `[a-zA-Z]{1}`, que é qualquer caractere entre a e z minúsculo ou A e Z maiúsculo

`[a-zA-Z]+` encontra cadeias de caracteres com letras entre a e z e A e Z de comprimento pelo menos igual a 1

`(\d\d\d\d)` encontra o mesmo que `\d{4}` que são strings de quatro dígitos

`(?P<num>\d\d\d\d)` encontra strings de quatro dígitos e rotula esse grupo como "num"

---


<img src='img/regex_methods.PNG' align='left' width=40%/>

Vamos criar objetos regex com `re.compile` porque sua execução é muito mais eficiente quando aplicamos a mesma expressão a várias cadeias de caracteres.

## Módulo `re`

Este [módulo](https://docs.python.org/3/library/re.html) fornece operações de pesquisa, substituição e divisão (split) com expressões regulares.

### Split

Dividimos uma string de caracteres (a variável de texto), usando o padrão definido na expressão regular como separador.

Obtemos como resultado a lista de partes que constituem a variável de texto.

No link de referência da sintaxe, vemos que:

*\s: Returns a match where the string contains a white space character*

In [1]:
import re

padrao = "\s+"

regex = re.compile(padrao, flags = re.IGNORECASE)

texto = "foo      bar \t bas \tqux"
regex.split(texto)


['foo', 'bar', 'bas', 'qux']

### Pattern matching

Se, em vez de separar o texto da variável, quisermos extrair todas as substrings que verificam o padrão da expressão regular:

In [2]:
regex.findall(texto)

['      ', ' \t ', ' \t']

Se procurarmos apenas a primeira correspondência do padrão de expressão regular:

In [3]:
regex.search(texto)

<re.Match object; span=(3, 9), match='      '>

match busca apenas no começo da string:

In [4]:
result = regex.match(texto)
print(result)

None


In [5]:
texto_2 = '   ' + texto
result = regex.match(texto_2)
print(result)

<re.Match object; span=(0, 3), match='   '>


As funçÕes `match` e `search` funcionam de forma similar à função `findall`. Enquanto `findall` retorna todas as correspondências em uma `string`, `search` retorna apenas a primeira, e `match` apenas a encontra se estiver no início da `string`.

### Substituição

Agora queremos substituir todas as substrings que verificam o padrão da regex pela string "[espaços]"

In [6]:
regex.sub(' [espaços] ', texto)

'foo [espaços] bar [espaços] bas [espaços] qux'

### Exemplos

Usando o conjunto de dados de propriedade de Melbourne, da coluna Address, vamos extrair o número da rua e o nome sem o sufixo 'St'.

Vamos ler os dados:

In [7]:
import pandas as pd 

# local
data_location = "../Data/melb_data.csv"
# colab
# data_location = ""

data = pd.read_csv(data_location)

data.head(5)

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
0,Abbotsford,85 Turner St,2,h,1480000.0,S,Biggin,3/12/2016,2.5,3067.0,...,1.0,1.0,202.0,,,Yarra,-37.7996,144.9984,Northern Metropolitan,4019.0
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
3,Abbotsford,40 Federation La,3,h,850000.0,PI,Biggin,4/03/2017,2.5,3067.0,...,2.0,1.0,94.0,,,Yarra,-37.7969,144.9969,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0


A expressão regular para o número do endereço é qualquer dígito (\d) uma ou mais vezes (+).

Como queremos extraí-lo, vamos usar algumas das funções de correspondência de padrões, neste caso `re.findall`.

E já que temos que avaliá-lo em cada elemento da Series `data.Address`, vamos usar `apply`.

In [8]:
padrao_num = "\d+"
padrao_num_regex = re.compile(padrao_num)

In [9]:
address_series = data.Address
resultado = address_series.apply(lambda x: padrao_num_regex.findall(x))
print(type(resultado))
print(resultado)

<class 'pandas.core.series.Series'>
0        [85]
1        [25]
2         [5]
3        [40]
4        [55]
         ... 
13575    [12]
13576    [77]
13577    [83]
13578    [96]
13579     [6]
Name: Address, Length: 13580, dtype: object


Observamos que:

* O resultado é uma instância da classe Series.

* Cada um de seus elementos é uma lista de tamanho igual a quantidade de números existentes na coluna Address, para cada registro (porque findall retorna todas as correspondências que encontra).

Se usarmos a pesquisa, obteremos apenas o primeiro:

In [10]:
address_series = data.Address
resultado = address_series.apply(lambda x: padrao_num_regex.search(x))
print(type(resultado))
print(resultado)

<class 'pandas.core.series.Series'>
0        <re.Match object; span=(0, 2), match='85'>
1        <re.Match object; span=(0, 2), match='25'>
2         <re.Match object; span=(0, 1), match='5'>
3        <re.Match object; span=(0, 2), match='40'>
4        <re.Match object; span=(0, 2), match='55'>
                            ...                    
13575    <re.Match object; span=(0, 2), match='12'>
13576    <re.Match object; span=(0, 2), match='77'>
13577    <re.Match object; span=(0, 2), match='83'>
13578    <re.Match object; span=(0, 2), match='96'>
13579     <re.Match object; span=(0, 1), match='6'>
Name: Address, Length: 13580, dtype: object


Observamos que:

* O resultado é uma instância da classe Series.

* Cada um de seus elementos é um objeto do tipo Match, que corresponde ao primeiro número encontrado para cada registro naquele campo
https://docs.python.org/3/library/re.html#match-objects

Para extrair o valor do número a partir do objeto Match, podemos usar `group` o `[ ]`:

In [11]:
numeros_match = resultado.apply(lambda x: x[0])
numeros_match

0        85
1        25
2         5
3        40
4        55
         ..
13575    12
13576    77
13577    83
13578    96
13579     6
Name: Address, Length: 13580, dtype: object

In [12]:
numeros_match = resultado.apply(lambda x: x.group(0))
numeros_match

0        85
1        25
2         5
3        40
4        55
         ..
13575    12
13576    77
13577    83
13578    96
13579     6
Name: Address, Length: 13580, dtype: object

Agora vamos encontrar o nome da rua sem o sufixo. Os sufixos podem ser St, La, Cr, Dr.

Vamos construir um padrão que identifica:

1)  o número da rua `(?P<number_street>\d+[a-z]*)` com um ou mais dígitos (\d+) seguidos opcionalmente (*) por um caractere minúsculo.
  
2)  seguido por um espaço (\s)

3) seguido pelo nome da rua `(?P<street_name>.+)` qualquer sequência de caracteres de tamanho pelo menos igual a 1

4) seguido por um sufixo `(?P<suffix>\sSt|La|Cr|Dr)` que é um espaço seguido pela cadeia de caracteres "St" ou "La" ou "Cr" ou "Dr"

In [13]:
pattern = "(?P<number_street>\d+[a-z]*)\s(?P<street_name>.+)(?P<suffix>\sSt|La|Cr|Dr)"

pattern_regex = re.compile(pattern)
address_series = data.Address
resultado_nomes = address_series.apply(lambda x: pattern_regex.search(x))
#print(type(resultado))
print(resultado_nomes)

0        <re.Match object; span=(0, 12), match='85 Turn...
1        <re.Match object; span=(0, 15), match='25 Bloo...
2        <re.Match object; span=(0, 12), match='5 Charl...
3        <re.Match object; span=(0, 16), match='40 Fede...
4        <re.Match object; span=(0, 11), match='55a Par...
                               ...                        
13575    <re.Match object; span=(0, 12), match='12 Stra...
13576    <re.Match object; span=(0, 13), match='77 Merr...
13577    <re.Match object; span=(0, 11), match='83 Powe...
13578    <re.Match object; span=(0, 12), match='96 Verd...
13579    <re.Match object; span=(0, 10), match='6 Agnes...
Name: Address, Length: 13580, dtype: object


Para extrair o nome da rua do objeto Match, podemos usar a função `group` sabendo que o nome do grupo é 'street_name':

In [14]:
streets_match = resultado_nomes.apply(lambda x: x if x is None else x.group('street_name'))
streets_match

0             Turner
1          Bloomburg
2            Charles
3        Federation 
4               Park
            ...     
13575        Strada 
13576       Merrett 
13577          Power
13578         Verdon
13579          Agnes
Name: Address, Length: 13580, dtype: object

Agora queremos dividir cada campo de endereço de cada registro em três partes: número, nome e sufixo.
    
Para isso vamos usar a mesma expressão regular definida anteriormente e o método `split`.

In [15]:
pattern_address = "(?P<number_street>\d+[a-z]*)\s(?P<street_name>.+)(?P<suffix>\sSt|La|Cr|Dr)"

pattern_address_regex = re.compile(pattern_address)
address_series = data.Address
resultado_nomes = address_series.apply(lambda x: pattern_address_regex.split(x))

#print(type(resultado))
print(resultado_nomes)

0            [, 85, Turner,  St, ]
1         [, 25, Bloomburg,  St, ]
2            [, 5, Charles,  St, ]
3        [, 40, Federation , La, ]
4             [, 55a, Park,  St, ]
                   ...            
13575        [, 12, Strada , Cr, ]
13576       [, 77, Merrett , Dr, ]
13577         [, 83, Power,  St, ]
13578        [, 96, Verdon,  St, ]
13579          [, 6, Agnes,  St, ]
Name: Address, Length: 13580, dtype: object


Para terminar, vamos substituir o sufixo de cada registro por uma string vazia:

In [16]:
pattern_suffix = "\sSt|La|Cr|Dr"

string_to_replace = ""

pattern_suffix_regex = re.compile(pattern_suffix)
address_series = data.Address
resultado_substituicao = address_series.apply(lambda x: pattern_suffix_regex.sub(string_to_replace, x))
print(resultado_substituicao)

0             85 Turner
1          25 Bloomburg
2             5 Charles
3        40 Federation 
4              55a Park
              ...      
13575           12rada 
13576       77 Merrett 
13577          83 Power
13578         96 Verdon
13579           6 Agnes
Name: Address, Length: 13580, dtype: object


## Referências

- [re — Regular expression operations](https://docs.python.org/3/library/re.html)

- [Regex tutorial — A quick cheatsheet by examples](https://medium.com/factory-mind/regex-tutorial-a-simple-cheatsheet-by-examples-649dc1c3f285)

Sintaxe das expressões regulares

- [Regular Expression Syntax](https://docs.python.org/3/library/re.html#re-syntax)

- [Python RegEx](https://www.w3schools.com/python/python_regex.asp)

- [Regular Expression HOWTO](https://docs.python.org/3/howto/regex.html)


Sites para praticar:

- [Untitled Pattern](https://regexr.com/)

- [Regular Expressions 101](https://regex101.com/)