<h1 align=center><b>Capítulo 9</b></h1>
<h1 align=center>Usando RegEx para extrair dados<h1>

**Expressões Regulares (Regex ou regex)** é na verdade um padrão que é construído usando comandos e formatos predefinidos para corresponder ao conteúdo desejado. O Regex fornece um grande valor durante a extração de dados quando não há um layout específico ou padrões de marcação a serem escolhidos e pode ser aplicado com outras técnicas, como XPath e seletores CSS.

Conteúdo da Web complexo e dados em formato geral de texto ou caractere podem exigir o uso de Regex para concluir atividades, como correspondência e extração, além de substituição de função, divisão e assim por diante.

## Visão geral de expressões regulares
Expressões regulares são usadas para combinar padrões encontrados em texto ou strings. O Regex pode ser usado para testar e encontrar padrões conforme desejado em texto ou conteúdo da web. Regex contém várias maneiras de definir padrões e notações especiais, como códigos de escape para aplicar algumas regras predefinidas.

Existem vários casos em que o Regex pode ser bastante eficaz e rápido para obter os resultados desejados. O Regex pode ser aplicado apenas ao conteúdo (texto ou fontes da Web) e pode ser usado para direcionar padrões de informações específicos que não são facilmente extraíveis ao usar XPath, seletores CSS, BS4, PyQuery e assim por diante.

Às vezes, podem surgir casos que exigirão que os seletores Regex e XPath ou CSS sejam usados juntos para obter a saída desejada. Essa saída pode ser testada usando Regex para encontrar padrões ou limpar e gerenciar dados. Editores de código, escritores de documentos e leitores também fornecem utilitários baseados em Regex incorporados.

O Regex pode ser aplicado a qualquer texto ou sequência de caracteres, fontes HTML e assim por diante que contenham formatação adequada ou imprópria. O Regex pode ser usado para várias aplicações, como as seguintes:
* Conteúdo baseado em um padrão específico
* Links de página
* Títulos e links das imagens
* Textos dentro de links
* Correspondência e validação de endereços de e-mail
* Correspondência de um código postal ou código postal de strings de endereço
* Validar números de telefone e assim por diante

O uso de ferramentas como pesquisar, localizar, dividir, substituir, combinar e iterar são aplicáveis com ou sem interferência de outra tecnologia. Nas seções a seguir, usaremos o módulo re Python e exploraremos seus métodos, que podemos aplicar ao Regex.

### Expressões regulares e Python

Vamos começar importando `re`e listar as propriedades usando  a função `dir()`.

In [1]:
import re
print(dir(re))

['A', 'ASCII', 'DEBUG', 'DOTALL', 'I', 'IGNORECASE', 'L', 'LOCALE', 'M', 'MULTILINE', 'Match', 'Pattern', 'RegexFlag', 'S', 'Scanner', 'T', 'TEMPLATE', 'U', 'UNICODE', 'VERBOSE', 'X', '_MAXCACHE', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', '__version__', '_cache', '_compile', '_compile_repl', '_expand', '_locale', '_pickle', '_special_chars_map', '_subx', 'compile', 'copyreg', 'enum', 'error', 'escape', 'findall', 'finditer', 'fullmatch', 'functools', 'match', 'purge', 'search', 'split', 'sre_compile', 'sre_parse', 'sub', 'subn', 'template']


Como podemos ver na saída anterior, existem várias funções disponíveis em `re`. Usaremos algumas dessas funções de uma perspectiva de extração de conteúdo e explicaremos o básico dos fundamentos do Regex usando exemplos como os seguintes:

In [2]:
sentence = """Brief information about Jobs in Python. Programming and Scripting experience in some language (such as Python R, MATLAB, SAS, Mathematica, Java, C, C++, VB, JavaScript or FORTRAN) is expected. Participants should be comfortable with basic programming concepts like variables, loops, and functions."""

A função `split()` explode a string e retorna a lista de palavras individuais, que são separadas pelo caractere de espaço por padrão. Também podemos dividir o objeto string usando `re.split()`. Neste caso, `split()` aceita o padrão Regex para dividir a sentença, por exemplo, `re.split(r'\s+',sentence)`:

In [5]:
splitSentence = sentence.split()
print("Length of Sentence: ",len(sentence), '& splitSentence:',len(splitSentence))
print(splitSentence)

Length of Sentence:  297 & splitSentence: 42
['Brief', 'information', 'about', 'Jobs', 'in', 'Python.', 'Programming', 'and', 'Scripting', 'experience', 'in', 'some', 'language', '(such', 'as', 'Python', 'R,', 'MATLAB,', 'SAS,', 'Mathematica,', 'Java,', 'C,', 'C++,', 'VB,', 'JavaScript', 'or', 'FORTRAN)', 'is', 'expected.', 'Participants', 'should', 'be', 'comfortable', 'with', 'basic', 'programming', 'concepts', 'like', 'variables,', 'loops,', 'and', 'functions.']


In [6]:
matches = re.findall(r"([A-Z+]+)\,",sentence) #finding pattern with [A-Z+] and comma behind
print("Findall found total ",len(matches)," Matches >> ",matches)

Findall found total  6  Matches >>  ['R', 'MATLAB', 'SAS', 'C', 'C++', 'VB']


In [7]:
matches = re.findall(r"([A-Z]+)\,",sentence) #finding pattern with [A-Z] and comma behind
print("Findall found total ",len(matches)," Matches >> ",matches)

Findall found total  5  Matches >>  ['R', 'MATLAB', 'SAS', 'C', 'VB']


`re.findall()` aceita um padrão para pesquisar e o conteúdo para procurar em relação ao padrão fornecido. Normalmente, os padrões podem ser fornecidos diretamente às funções como um argumento e como uma string bruta precedida por r, como `r'([A-Z]+)'`, ou uma variável contendo uma string bruta.

No código anterior, podemos ver padrões semelhantes com determinados caracteres adicionais fornecidos, mas eles diferem na saída. Uma explicação geral é fornecida para alguns desses padrões, como segue:
* $\small [A-Z]$: Os colchetes no padrão correspondem a um conjunto de caracteres e diferenciam maiúsculas de minúsculas. Aqui, ele corresponde aos caracteres de $\small A$ a $\small Z$, mas não de $\small a$ a $\small z$. Podemos fornecer um conjunto de caracteres como $\small [A-Za-z0-9]$, que corresponde a quaisquer caracteres de $\small A$ a $\small Z$ e $\small a$ a $\small z$, bem como caracteres numéricos de $\small 0$ a $\small 9$. Caracteres adicionais, se necessários, podem ser passado dentro do conjunto como $\small [A-Z+]$; o caractere $\small +$ pode existir com $\small A$ a $\small Z$ de caracteres, por exemplo, C++ ou C.
* $\small ()$: Os colchetes no padrão mantêm o grupo de valores que foram correspondidos.
* $\small +$ (usado para repetição): Encontrado fora do conjunto de caracteres, corresponde a uma ou mais ocorrências do padrão que segue. $\small [A-Z]+$ corresponderá a pelo menos uma ou mais combinações encontradas com os caracteres $\small A$ a $\small Z$, por exemplo, R e MATLAB do código anterior. Existem mais alguns caracteres para especificar repetição ou ocorrências, também conhecidos como quantificadores Regex:
* $\small *$ corresponde a zero ou mais ocorrências dos padrões
* $\small ?$ corresponde a zero ou uma ocorrência do padrão
* $\small \{m,n\}$ corresponde ao mínimo, $\small m$, e máximo, $\small n$, números de repetição, respectivamente:
  * $\small \{2,5\}$ : mínimo 2 ou máximo 5
  * $\small \{2,\}$: mínimo 2 ou pode ser mais
  * $\small \{,5\}$: Máximo 5
  * $\small \{3\}$: 3 ocorrências
* $\small \, (vírgula)$: Em Regex, caracteres diferentes de $\small [A-Za-z0-9]$ são normalmente escritos como caracteres de escape para mencionar esse caractere específico ($\small \backslash,$ para vírgula, $\small \backslash.$ para ponto, $\small \backslash?$ para ponto de interrogação, e assim por diante).

Os quantificadores Regex também são categorizados da seguinte forma:
* **Quantificadores gananciosos**: correspondem a qualquer elemento o maior número de vezes possível.
* **Quantificadores preguiçosos ou não gananciosos**: correspondem a qualquer elemento o menor número de vezes possível. Normalmente, um quantificador guloso é convertido em um quantificador lento adicionando $\small ?$ para isso.

Padrões como $\small ([A-Z+]+)\$, correspondem ao conjunto de caracteres de $\small A$ a $\small Z$ e $\small +$ que podem existir em pelo menos um ou mais caracteres, seguidos por $\small ,$. Na frase do código anterior, podemos encontrar R, MATLAB, SAS, Mathematica, Java, C, C++, VB e JavaScript (há também FORTRAN), ou seja, nomes seguidos de $\small ,$ (mas não no caso de FORTRAN; é por isso que foi excluído na saída para os padrões fornecidos).
No código a seguir, estamos tentando combinar o FORTRAN que foi encontrado na sentença, que está sendo omitido com os padrões que tentamos no código anteriormente:

In [19]:
matches = re.findall(r"\s*([\sorA-Z+]+)\)", sentence)
print("Findall found total ",len(matches)," Matches >> ",matches)

Findall found total  1  Matches >>  ['or FORTRAN']


In [22]:
fortran = matches[0]
if re.match(r'or',fortran):
    fortran = re.sub(r'or\s*','',fortran) #substitute 'or ' with empty string
print(fortran)

FORTRAN


In [23]:
if re.search(r'^F.*N$',fortran): #using beginning and end of line searching pattern
	print("True")

True


Conforme mostrado no bloco de código anterior, a biblioteca Python, re, possui várias funções, que são as seguintes:
* `re.match()`: Isso corresponde a um padrão fornecido no início da string e retorna o objeto correspondente.
* `re.sub()`: Isso encontra um padrão e o substitui pela string fornecida. Funciona de forma semelhante para localizar e substituir no texto.
* `re.search()`: Isso corresponde a um padrão na string e retorna o objeto correspondente encontrado.
* `\s`: representa os caracteres de espaço, tabulação e nova linha. Aqui, `[\sorA-Z+]+\)` corresponde a um ou mais caracteres, incluindo `A-Z`, `o`, `r`, `\s` e `+`, seguidos por `\`) (parênteses de fechamento). Existem mais alguns códigos de escape encontrados no Regex, como segue:
* `\d`: Corresponde a um dígito
* `\D`: Corresponde a um não dígito
* `\s`: Corresponde ao espaço em branco
* `\S`: Corresponde a não espaços em branco
* `\w`: Corresponde a caracteres alfanuméricos
* `\W`: Corresponde a caracteres não alfanuméricos
* `\b`: Corresponde a um limite de palavra
* `\B`: Corresponde a um limite de não-palavra
* `^`: Isso corresponde ao início da string.
* `$`: Isso corresponde ao final da string.
* `|`: Isso implementa a expressão lógica, `OR`, no padrão. Por exemplo, `r'a|b'` corresponderá a qualquer expressão verdadeira, ou seja, `a` ou `b`.

O código a seguir mostra o uso de alguns desses padrões Regex e o função `findall()`, junto com sua saída:

In [24]:
matches = re.findall(r'\s(MAT.*?)\,',sentence,flags=re.IGNORECASE)
print("(MAT.*?)\,: ",matches)

(MAT.*?)\,:  ['MATLAB', 'Mathematica']


In [25]:
matches = re.findall(r'\s(MAT.*?)\,',sentence) #findall with 'MAT' case-sensitive
print("(MAT.*?)\,: ",matches)

(MAT.*?)\,:  ['MATLAB']


In [26]:
matches = re.findall(r'\s(C.*?)\,',sentence)
print("\s(C.*?)\,: ",matches)

\s(C.*?)\,:  ['C', 'C++']


As seguintes funções foram encontradas no código anterior:
As funções `re` também suportam um argumento opcional de flags. Há também uma abreviação para esses sinalizadores (`i` para `re.IGNORECASE`, `s` para `re.DOTALL` e `M` para `re.MULTILINE`). Eles podem ser usados em padrões, incluindo-os no início das expressões. Por exemplo, `r'(?i)\s(MAT.*?)\`, retornará [`MATLAB, Mathematica`]. A seguir estão algumas outras funções `re` que foram encontradas no código:
* `re.IGNORECASE`: Ignora a distinção entre maiúsculas e minúsculas encontrada no padrão fornecido
* `re.DOTALL`: Permite `.` (ponto) para corresponder a uma nova linha e funciona com strings contendo várias linhas
* `re.MULTILINE`: Funciona com strings de várias linhas e procura padrões, incluindo nova linha ("`\n`")
* `.` ou ponto final: corresponde a qualquer caractere único, mas não à nova linha ("\n").

É usado em padrões principalmente com caracteres de repetição. Um período ou `.` deve ser correspondido na string e deve ser usado como `\.`:

In [27]:
matchesOne = re.split(r"\W+",sentence) #split by word, \w (word characters, \W - nonword)
print("Regular Split '\W+' found total: ",len(matchesOne),"\n",matchesOne)

Regular Split '\W+' found total:  43 
 ['Brief', 'information', 'about', 'Jobs', 'in', 'Python', 'Programming', 'and', 'Scripting', 'experience', 'in', 'some', 'language', 'such', 'as', 'Python', 'R', 'MATLAB', 'SAS', 'Mathematica', 'Java', 'C', 'C', 'VB', 'JavaScript', 'or', 'FORTRAN', 'is', 'expected', 'Participants', 'should', 'be', 'comfortable', 'with', 'basic', 'programming', 'concepts', 'like', 'variables', 'loops', 'and', 'functions', '']


In [28]:
matchesTwo = re.split(r"\s",sentence) #split by space
print("Regular Split '\s' found total: ",len(matchesTwo),"\n",matchesTwo)

Regular Split '\s' found total:  42 
 ['Brief', 'information', 'about', 'Jobs', 'in', 'Python.', 'Programming', 'and', 'Scripting', 'experience', 'in', 'some', 'language', '(such', 'as', 'Python', 'R,', 'MATLAB,', 'SAS,', 'Mathematica,', 'Java,', 'C,', 'C++,', 'VB,', 'JavaScript', 'or', 'FORTRAN)', 'is', 'expected.', 'Participants', 'should', 'be', 'comfortable', 'with', 'basic', 'programming', 'concepts', 'like', 'variables,', 'loops,', 'and', 'functions.']


* `re.split()`: Isso divide o conteúdo fornecido com base no padrão e retorna uma lista com resultados. Também existe um `split()`, que pode ser usado com uma string para explodir com os caracteres padrão ou fornecidos. Ele é usado de maneira semelhante ao splitSentence, anteriormente nesta seção.

No código abaixo estamos tentando aplicar o padrão regex para o valor encontrado dentro do atributo datetime. O padrão definido será compilado e usado para pesquisar no bloco de código:

In [29]:
timeDate= '''<time datetime="2019-02-11T18:00:00+00:00"></time>
<time datetime="2018-02-11T13:59:00+00:00"></time>
<time datetime="2019-02-06T13:44:00.000002+00:00"></time>
<time datetime="2019-02-05T17:39:00.000001+00:00"></time>
<time datetime="2019-02-04T12:53:00+00:00"></time>'''

pattern = r'(20\d+)([-]+)(0[1-9]|1[012])([-]+)(0[1-9]|[12][0-9]|3[01])'
recompiled = re.compile(pattern) # <class '_sre.SRE_Pattern'>
dateMatches = recompiled.search(timeDate)

* `re.compile()`: Isso é usado para compilar um padrão Regex e receber um objeto padrão (`_sre.SRE_Pattern`). O objeto recebido pode ser usado com outros recursos Regex.

As correspondências de grupo podem ser exploradas individualmente usando o método `group()`, conforme mostrado no código a seguir:

In [30]:
print("Group : ",dateMatches.group())
print("Groups : ",dateMatches.groups())
print("Group 1 : ",dateMatches.group(1))
print("Group 5 : ",dateMatches.group(5))

Group :  2019-02-11
Groups :  ('2019', '-', '02', '-', '11')
Group 1 :  2019
Group 5 :  11


Como podemos ver, embora o padrão tenha sido pesquisado em várias linhas `timeDate`, ele resulta em um único grupo; um grupo individual também pode ser retornado usando o índice. Um objeto de correspondência re-relacionado contém as funções `groups()` e `group()`; `groups(0)` resulta na mesma saída que `groups()`. Elementos individuais em `groups()` exigirão um índice começando em `1`.

* `re.finditer()`: Isso é usado para iterar sobre correspondências resultantes que são obtidas para o padrão ou objeto de padrão encontrado no conteúdo fornecido. Ele retorna um objeto match (`_sre.SRE_Match`) encontrado em `re.match()`.
* `re.match()` retorna um objeto que contém várias funções e atributos que são usados em exemplos de código. Estes são os seguintes:

  * `start()`: Retorna o índice de caractere inicial que corresponde à expressão
  * `end()`: Retorna o índice de caractere final que corresponde à expressão
  * `span()`: Retorna os índices de caractere inicial e final da expressão correspondente
  * `lastindex`: Retorna o índice da última expressão correspondente
  * `groupdict()`: Retorna o dicionário de grupo correspondente com uma string padrão e valores correspondentes
  * `groups()`: Retorna todos os elementos correspondentes
  * `group()`: Retorna um grupo individual e pode ser acessado com o nome do grupo
  * `lastgroup`: Retorna o nome do último grupo

In [31]:
for match in re.finditer(pattern, timeDate): # <class '_sre.SRE_Match'>
                  # #for match in re.finditer(recompiled, timeDate):
	s = match.start()
	e = match.end()
	l = match.lastindex
	g = match.groups()

	print('Found {} at {}:{}, groups{} lastindex:{}'.format(timeDate[s:e], s,e,g,l))

Found 2019-02-11 at 16:26, groups('2019', '-', '02', '-', '11') lastindex:5
Found 2018-02-11 at 67:77, groups('2018', '-', '02', '-', '11') lastindex:5
Found 2019-02-06 at 118:128, groups('2019', '-', '02', '-', '06') lastindex:5
Found 2019-02-05 at 176:186, groups('2019', '-', '02', '-', '05') lastindex:5
Found 2019-02-04 at 234:244, groups('2019', '-', '02', '-', '04') lastindex:5
