<h1 align=center><b>Capítulo 9</b></h1>
<h1 align=center>Usando RegEx para extrair dados<h1>

**Expressões Regulares (Regex ou regex)** é na verdade um padrão que é construído usando comandos e formatos predefinidos para corresponder ao conteúdo desejado. O Regex fornece um grande valor durante a extração de dados quando não há um layout específico ou padrões de marcação a serem escolhidos e pode ser aplicado com outras técnicas, como XPath e seletores CSS.

Conteúdo da Web complexo e dados em formato geral de texto ou caractere podem exigir o uso de Regex para concluir atividades, como correspondência e extração, além de substituição de função, divisão e assim por diante.

## Visão geral de expressões regulares
Expressões regulares são usadas para combinar padrões encontrados em texto ou strings. O Regex pode ser usado para testar e encontrar padrões conforme desejado em texto ou conteúdo da web. Regex contém várias maneiras de definir padrões e notações especiais, como códigos de escape para aplicar algumas regras predefinidas.

Existem vários casos em que o Regex pode ser bastante eficaz e rápido para obter os resultados desejados. O Regex pode ser aplicado apenas ao conteúdo (texto ou fontes da Web) e pode ser usado para direcionar padrões de informações específicos que não são facilmente extraíveis ao usar XPath, seletores CSS, BS4, PyQuery e assim por diante.

Às vezes, podem surgir casos que exigirão que os seletores Regex e XPath ou CSS sejam usados juntos para obter a saída desejada. Essa saída pode ser testada usando Regex para encontrar padrões ou limpar e gerenciar dados. Editores de código, escritores de documentos e leitores também fornecem utilitários baseados em Regex incorporados.

O Regex pode ser aplicado a qualquer texto ou sequência de caracteres, fontes HTML e assim por diante que contenham formatação adequada ou imprópria. O Regex pode ser usado para várias aplicações, como as seguintes:
* Conteúdo baseado em um padrão específico
* Links de página
* Títulos e links das imagens
* Textos dentro de links
* Correspondência e validação de endereços de e-mail
* Correspondência de um código postal ou código postal de strings de endereço
* Validar números de telefone e assim por diante

O uso de ferramentas como pesquisar, localizar, dividir, substituir, combinar e iterar são aplicáveis com ou sem interferência de outra tecnologia. Nas seções a seguir, usaremos o módulo re Python e exploraremos seus métodos, que podemos aplicar ao Regex.

### Expressões regulares e Python

Vamos começar importando `re`e listar as propriedades usando  a função `dir()`.

In [2]:
import re
print(dir(re))

['A', 'ASCII', 'DEBUG', 'DOTALL', 'I', 'IGNORECASE', 'L', 'LOCALE', 'M', 'MULTILINE', 'Match', 'Pattern', 'RegexFlag', 'S', 'Scanner', 'T', 'TEMPLATE', 'U', 'UNICODE', 'VERBOSE', 'X', '_MAXCACHE', '__all__', '__builtins__', '__cached__', '__doc__', '__file__', '__loader__', '__name__', '__package__', '__spec__', '__version__', '_cache', '_compile', '_compile_repl', '_expand', '_locale', '_pickle', '_special_chars_map', '_subx', 'compile', 'copyreg', 'enum', 'error', 'escape', 'findall', 'finditer', 'fullmatch', 'functools', 'match', 'purge', 'search', 'split', 'sre_compile', 'sre_parse', 'sub', 'subn', 'template']


Como podemos ver na saída anterior, existem várias funções disponíveis em `re`. Usaremos algumas dessas funções de uma perspectiva de extração de conteúdo e explicaremos o básico dos fundamentos do Regex usando exemplos como os seguintes:

In [3]:
sentence = """Brief information about Jobs in Python. Programming and Scripting experience in some language (such as Python R, MATLAB, SAS, Mathematica, Java, C, C++, VB, JavaScript or FORTRAN) is expected. Participants should be comfortable with basic programming concepts like variables, loops, and functions."""

A função `split()` explode a string e retorna a lista de palavras individuais, que são separadas pelo caractere de espaço por padrão. Também podemos dividir o objeto string usando `re.split()`. Neste caso, `split()` aceita o padrão Regex para dividir a sentença, por exemplo, `re.split(r'\s+',sentence)`:

In [4]:
splitSentence = sentence.split()
print("Length of Sentence: ",len(sentence), '& splitSentence:',len(splitSentence))
print(splitSentence)

Length of Sentence:  297 & splitSentence: 42
['Brief', 'information', 'about', 'Jobs', 'in', 'Python.', 'Programming', 'and', 'Scripting', 'experience', 'in', 'some', 'language', '(such', 'as', 'Python', 'R,', 'MATLAB,', 'SAS,', 'Mathematica,', 'Java,', 'C,', 'C++,', 'VB,', 'JavaScript', 'or', 'FORTRAN)', 'is', 'expected.', 'Participants', 'should', 'be', 'comfortable', 'with', 'basic', 'programming', 'concepts', 'like', 'variables,', 'loops,', 'and', 'functions.']


In [5]:
matches = re.findall(r"([A-Z+]+)\,",sentence) #finding pattern with [A-Z+] and comma behind
print("Findall found total ",len(matches)," Matches >> ",matches)

Findall found total  6  Matches >>  ['R', 'MATLAB', 'SAS', 'C', 'C++', 'VB']


In [6]:
matches = re.findall(r"([A-Z]+)\,",sentence) #finding pattern with [A-Z] and comma behind
print("Findall found total ",len(matches)," Matches >> ",matches)

Findall found total  5  Matches >>  ['R', 'MATLAB', 'SAS', 'C', 'VB']


`re.findall()` aceita um padrão para pesquisar e o conteúdo para procurar em relação ao padrão fornecido. Normalmente, os padrões podem ser fornecidos diretamente às funções como um argumento e como uma string bruta precedida por r, como `r'([A-Z]+)'`, ou uma variável contendo uma string bruta.

No código anterior, podemos ver padrões semelhantes com determinados caracteres adicionais fornecidos, mas eles diferem na saída. Uma explicação geral é fornecida para alguns desses padrões, como segue:
* $\small [A-Z]$: Os colchetes no padrão correspondem a um conjunto de caracteres e diferenciam maiúsculas de minúsculas. Aqui, ele corresponde aos caracteres de $\small A$ a $\small Z$, mas não de $\small a$ a $\small z$. Podemos fornecer um conjunto de caracteres como $\small [A-Za-z0-9]$, que corresponde a quaisquer caracteres de $\small A$ a $\small Z$ e $\small a$ a $\small z$, bem como caracteres numéricos de $\small 0$ a $\small 9$. Caracteres adicionais, se necessários, podem ser passado dentro do conjunto como $\small [A-Z+]$; o caractere $\small +$ pode existir com $\small A$ a $\small Z$ de caracteres, por exemplo, C++ ou C.
* $\small ()$: Os colchetes no padrão mantêm o grupo de valores que foram correspondidos.
* $\small +$ (usado para repetição): Encontrado fora do conjunto de caracteres, corresponde a uma ou mais ocorrências do padrão que segue. $\small [A-Z]+$ corresponderá a pelo menos uma ou mais combinações encontradas com os caracteres $\small A$ a $\small Z$, por exemplo, R e MATLAB do código anterior. Existem mais alguns caracteres para especificar repetição ou ocorrências, também conhecidos como quantificadores Regex:
* $\small *$ corresponde a zero ou mais ocorrências dos padrões
* $\small ?$ corresponde a zero ou uma ocorrência do padrão
* $\small \{m,n\}$ corresponde ao mínimo, $\small m$, e máximo, $\small n$, números de repetição, respectivamente:
  * $\small \{2,5\}$ : mínimo 2 ou máximo 5
  * $\small \{2,\}$: mínimo 2 ou pode ser mais
  * $\small \{,5\}$: Máximo 5
  * $\small \{3\}$: 3 ocorrências
* $\small \, (vírgula)$: Em Regex, caracteres diferentes de $\small [A-Za-z0-9]$ são normalmente escritos como caracteres de escape para mencionar esse caractere específico ($\small \backslash,$ para vírgula, $\small \backslash.$ para ponto, $\small \backslash?$ para ponto de interrogação, e assim por diante).

Os quantificadores Regex também são categorizados da seguinte forma:
* **Quantificadores gananciosos**: correspondem a qualquer elemento o maior número de vezes possível.
* **Quantificadores preguiçosos ou não gananciosos**: correspondem a qualquer elemento o menor número de vezes possível. Normalmente, um quantificador guloso é convertido em um quantificador lento adicionando $\small ?$ para isso.

Padrões como $\small ([A-Z+]+)\$, correspondem ao conjunto de caracteres de $\small A$ a $\small Z$ e $\small +$ que podem existir em pelo menos um ou mais caracteres, seguidos por $\small ,$. Na frase do código anterior, podemos encontrar R, MATLAB, SAS, Mathematica, Java, C, C++, VB e JavaScript (há também FORTRAN), ou seja, nomes seguidos de $\small ,$ (mas não no caso de FORTRAN; é por isso que foi excluído na saída para os padrões fornecidos).
No código a seguir, estamos tentando combinar o FORTRAN que foi encontrado na sentença, que está sendo omitido com os padrões que tentamos no código anteriormente:

In [7]:
matches = re.findall(r"\s*([\sorA-Z+]+)\)", sentence)
print("Findall found total ",len(matches)," Matches >> ",matches)

Findall found total  1  Matches >>  ['or FORTRAN']


In [8]:
fortran = matches[0]
if re.match(r'or',fortran):
    fortran = re.sub(r'or\s*','',fortran) #substitute 'or ' with empty string
print(fortran)

FORTRAN


In [9]:
if re.search(r'^F.*N$',fortran): #using beginning and end of line searching pattern
	print("True")

True


Conforme mostrado no bloco de código anterior, a biblioteca Python, re, possui várias funções, que são as seguintes:
* `re.match()`: Isso corresponde a um padrão fornecido no início da string e retorna o objeto correspondente.
* `re.sub()`: Isso encontra um padrão e o substitui pela string fornecida. Funciona de forma semelhante para localizar e substituir no texto.
* `re.search()`: Isso corresponde a um padrão na string e retorna o objeto correspondente encontrado.
* `\s`: representa os caracteres de espaço, tabulação e nova linha. Aqui, `[\sorA-Z+]+\)` corresponde a um ou mais caracteres, incluindo `A-Z`, `o`, `r`, `\s` e `+`, seguidos por `\`) (parênteses de fechamento). Existem mais alguns códigos de escape encontrados no Regex, como segue:
  * `\d`: Corresponde a um dígito
  * `\D`: Corresponde a um não dígito
  * `\s`: Corresponde ao espaço em branco
  * `\S`: Corresponde a não espaços em branco
  * `\w`: Corresponde a caracteres alfanuméricos
  * `\W`: Corresponde a caracteres não alfanuméricos
  * `\b`: Corresponde a um limite de palavra
  * `\B`: Corresponde a um limite de não-palavra
  * `^`: Isso corresponde ao início da string.
  * `$`: Isso corresponde ao final da string.
  * `|`: Isso implementa a expressão lógica, `OR`, no padrão. Por exemplo, `r'a|b'` corresponderá a qualquer expressão verdadeira, ou seja, `a` ou `b`.

O código a seguir mostra o uso de alguns desses padrões Regex e o função `findall()`, junto com sua saída:

In [10]:
matches = re.findall(r'\s(MAT.*?)\,',sentence,flags=re.IGNORECASE)
print("(MAT.*?)\,: ",matches)

(MAT.*?)\,:  ['MATLAB', 'Mathematica']


In [11]:
matches = re.findall(r'\s(MAT.*?)\,',sentence) #findall with 'MAT' case-sensitive
print("(MAT.*?)\,: ",matches)

(MAT.*?)\,:  ['MATLAB']


In [12]:
matches = re.findall(r'\s(C.*?)\,',sentence)
print("\s(C.*?)\,: ",matches)

\s(C.*?)\,:  ['C', 'C++']


As seguintes funções foram encontradas no código anterior:
As funções `re` também suportam um argumento opcional de flags. Há também uma abreviação para esses sinalizadores (`i` para `re.IGNORECASE`, `s` para `re.DOTALL` e `M` para `re.MULTILINE`). Eles podem ser usados em padrões, incluindo-os no início das expressões. Por exemplo, `r'(?i)\s(MAT.*?)\`, retornará [`MATLAB, Mathematica`]. A seguir estão algumas outras funções `re` que foram encontradas no código:
* `re.IGNORECASE`: Ignora a distinção entre maiúsculas e minúsculas encontrada no padrão fornecido
* `re.DOTALL`: Permite `.` (ponto) para corresponder a uma nova linha e funciona com strings contendo várias linhas
* `re.MULTILINE`: Funciona com strings de várias linhas e procura padrões, incluindo nova linha ("`\n`")
* `.` ou ponto final: corresponde a qualquer caractere único, mas não à nova linha ("`\n`").

É usado em padrões principalmente com caracteres de repetição. Um período ou `.` deve ser correspondido na string e deve ser usado como `\.`:

In [13]:
matchesOne = re.split(r"\W+",sentence) #split by word, \w (word characters, \W - nonword)
print("Regular Split '\W+' found total: ",len(matchesOne),"\n",matchesOne)

Regular Split '\W+' found total:  43 
 ['Brief', 'information', 'about', 'Jobs', 'in', 'Python', 'Programming', 'and', 'Scripting', 'experience', 'in', 'some', 'language', 'such', 'as', 'Python', 'R', 'MATLAB', 'SAS', 'Mathematica', 'Java', 'C', 'C', 'VB', 'JavaScript', 'or', 'FORTRAN', 'is', 'expected', 'Participants', 'should', 'be', 'comfortable', 'with', 'basic', 'programming', 'concepts', 'like', 'variables', 'loops', 'and', 'functions', '']


In [14]:
matchesTwo = re.split(r"\s",sentence) #split by space
print("Regular Split '\s' found total: ",len(matchesTwo),"\n",matchesTwo)

Regular Split '\s' found total:  42 
 ['Brief', 'information', 'about', 'Jobs', 'in', 'Python.', 'Programming', 'and', 'Scripting', 'experience', 'in', 'some', 'language', '(such', 'as', 'Python', 'R,', 'MATLAB,', 'SAS,', 'Mathematica,', 'Java,', 'C,', 'C++,', 'VB,', 'JavaScript', 'or', 'FORTRAN)', 'is', 'expected.', 'Participants', 'should', 'be', 'comfortable', 'with', 'basic', 'programming', 'concepts', 'like', 'variables,', 'loops,', 'and', 'functions.']


* `re.split()`: Isso divide o conteúdo fornecido com base no padrão e retorna uma lista com resultados. Também existe um `split()`, que pode ser usado com uma string para explodir com os caracteres padrão ou fornecidos. Ele é usado de maneira semelhante ao splitSentence, anteriormente nesta seção.

No código abaixo estamos tentando aplicar o padrão regex para o valor encontrado dentro do atributo datetime. O padrão definido será compilado e usado para pesquisar no bloco de código:

In [15]:
timeDate= '''<time datetime="2019-02-11T18:00:00+00:00"></time>
<time datetime="2018-02-11T13:59:00+00:00"></time>
<time datetime="2019-02-06T13:44:00.000002+00:00"></time>
<time datetime="2019-02-05T17:39:00.000001+00:00"></time>
<time datetime="2019-02-04T12:53:00+00:00"></time>'''

pattern = r'(20\d+)([-]+)(0[1-9]|1[012])([-]+)(0[1-9]|[12][0-9]|3[01])'
recompiled = re.compile(pattern) # <class '_sre.SRE_Pattern'>
dateMatches = recompiled.search(timeDate)

* `re.compile()`: Isso é usado para compilar um padrão Regex e receber um objeto padrão (`_sre.SRE_Pattern`). O objeto recebido pode ser usado com outros recursos Regex.

As correspondências de grupo podem ser exploradas individualmente usando o método `group()`, conforme mostrado no código a seguir:

In [16]:
print("Group : ",dateMatches.group())
print("Groups : ",dateMatches.groups())
print("Group 1 : ",dateMatches.group(1))
print("Group 5 : ",dateMatches.group(5))

Group :  2019-02-11
Groups :  ('2019', '-', '02', '-', '11')
Group 1 :  2019
Group 5 :  11


Como podemos ver, embora o padrão tenha sido pesquisado em várias linhas `timeDate`, ele resulta em um único grupo; um grupo individual também pode ser retornado usando o índice. Um objeto de correspondência re-relacionado contém as funções `groups()` e `group()`; `groups(0)` resulta na mesma saída que `groups()`. Elementos individuais em `groups()` exigirão um índice começando em `1`.

* `re.finditer()`: Isso é usado para iterar sobre correspondências resultantes que são obtidas para o padrão ou objeto de padrão encontrado no conteúdo fornecido. Ele retorna um objeto match (`_sre.SRE_Match`) encontrado em `re.match()`.
* `re.match()` retorna um objeto que contém várias funções e atributos que são usados em exemplos de código. Estes são os seguintes:

  * `start()`: Retorna o índice de caractere inicial que corresponde à expressão
  * `end()`: Retorna o índice de caractere final que corresponde à expressão
  * `span()`: Retorna os índices de caractere inicial e final da expressão correspondente
  * `lastindex`: Retorna o índice da última expressão correspondente
  * `groupdict()`: Retorna o dicionário de grupo correspondente com uma string padrão e valores correspondentes
  * `groups()`: Retorna todos os elementos correspondentes
  * `group()`: Retorna um grupo individual e pode ser acessado com o nome do grupo
  * `lastgroup`: Retorna o nome do último grupo

In [17]:
for match in re.finditer(pattern, timeDate): # <class '_sre.SRE_Match'>
                  # #for match in re.finditer(recompiled, timeDate):
	s = match.start()
	e = match.end()
	l = match.lastindex
	g = match.groups()

	print('Found {} at {}:{}, groups{} lastindex:{}'.format(timeDate[s:e], s,e,g,l))

Found 2019-02-11 at 16:26, groups('2019', '-', '02', '-', '11') lastindex:5
Found 2018-02-11 at 67:77, groups('2018', '-', '02', '-', '11') lastindex:5
Found 2019-02-06 at 118:128, groups('2019', '-', '02', '-', '06') lastindex:5
Found 2019-02-05 at 176:186, groups('2019', '-', '02', '-', '05') lastindex:5
Found 2019-02-04 at 234:244, groups('2019', '-', '02', '-', '04') lastindex:5


Os padrões também podem especificar nomes de strings para os grupos em que estão; por exemplo, `r'(?P<year>[0-9]{4})'` corresponde ao grupo de anos. O uso de padrões baseados em grupos no Regex nos ajuda a ler o padrão e gerenciar a saída com mais precisão; isso significa que não precisamos nos preocupar com a indexação.

Vamos considerar os padrões `pDate` (implementando `group()`, `groupdict()`, `start()`, `end()`, `lastgroup` e `lastindex`) com um nome de grupo e código que exibem as saídas para data e hora, respectivamente:

In [18]:
pDate = r'(?P<year>[0-9]{4})(?P<sep>[-])(?P<month>0[1-9]|1[012])-(?P<day>0[1-9]|[12][0-9]|3[01])'
recompiled = re.compile(pDate) #compiles the pattern
for match in re.finditer(recompiled,timeDate): #apply pattern on timeDate
    s = match.start()
    e = match.end()
    l = match.lastindex
    print("Group ALL or 0: ",match.groups(0)) #or match.groups() that is all
    print("Group Year: ",match.group('year')) #return year
    print("Group Month: ",match.group('month')) #return month
    print("Group Day: ",match.group('day')) #return day
    print("Group Delimiter: ",match.group('sep')) #return seperator
    print('Found {} at {}:{}, lastindex: {}'.format(timeDate[s:e], s, e,l))
    print('year :',match.groupdict()['year']) #accessing groupdict()
    print('day :',match.groupdict()['day'])
    print('lastgroup :',match.lastgroup) #lastgroup name

Group ALL or 0:  ('2019', '-', '02', '11')
Group Year:  2019
Group Month:  02
Group Day:  11
Group Delimiter:  -
Found 2019-02-11 at 16:26, lastindex: 4
year : 2019
day : 11
lastgroup : day
Group ALL or 0:  ('2018', '-', '02', '11')
Group Year:  2018
Group Month:  02
Group Day:  11
Group Delimiter:  -
Found 2018-02-11 at 67:77, lastindex: 4
year : 2018
day : 11
lastgroup : day
Group ALL or 0:  ('2019', '-', '02', '06')
Group Year:  2019
Group Month:  02
Group Day:  06
Group Delimiter:  -
Found 2019-02-06 at 118:128, lastindex: 4
year : 2019
day : 06
lastgroup : day
Group ALL or 0:  ('2019', '-', '02', '05')
Group Year:  2019
Group Month:  02
Group Day:  05
Group Delimiter:  -
Found 2019-02-05 at 176:186, lastindex: 4
year : 2019
day : 05
lastgroup : day
Group ALL or 0:  ('2019', '-', '02', '04')
Group Year:  2019
Group Month:  02
Group Day:  04
Group Delimiter:  -
Found 2019-02-04 at 234:244, lastindex: 4
year : 2019
day : 04
lastgroup : day


O código a seguir mostra o uso de `pTime` (implementando `span()`):

In [19]:
pTime = r'(?P<hour>[0-9]{2})(?P<sep>[:])(?P<min>[0-9]{2}):(?P<sec_mil>[0-9.:+]+)'
recompiled = re.compile(pTime)
for match in re.finditer(recompiled,timeDate):
	print("Group String: ",match.group()) #groups
	print("Group ALL or 0: ",match.groups())
	print("Group Span: ",match.span()) #using span()
	print("Group Span 1: ",match.span(1))
	print("Group Span 4: ",match.span(4))
	print('hour :',match.groupdict()['hour']) #accessing groupdict()
	print('minute :',match.groupdict()['min'])
	print('second :',match.groupdict()['sec_mil'])
	print('lastgroup :',match.lastgroup) #lastgroup name

Group String:  18:00:00+00:00
Group ALL or 0:  ('18', ':', '00', '00+00:00')
Group Span:  (27, 41)
Group Span 1:  (27, 29)
Group Span 4:  (33, 41)
hour : 18
minute : 00
second : 00+00:00
lastgroup : sec_mil
Group String:  13:59:00+00:00
Group ALL or 0:  ('13', ':', '59', '00+00:00')
Group Span:  (78, 92)
Group Span 1:  (78, 80)
Group Span 4:  (84, 92)
hour : 13
minute : 59
second : 00+00:00
lastgroup : sec_mil
Group String:  13:44:00.000002+00:00
Group ALL or 0:  ('13', ':', '44', '00.000002+00:00')
Group Span:  (129, 150)
Group Span 1:  (129, 131)
Group Span 4:  (135, 150)
hour : 13
minute : 44
second : 00.000002+00:00
lastgroup : sec_mil
Group String:  17:39:00.000001+00:00
Group ALL or 0:  ('17', ':', '39', '00.000001+00:00')
Group Span:  (187, 208)
Group Span 1:  (187, 189)
Group Span 4:  (193, 208)
hour : 17
minute : 39
second : 00.000001+00:00
lastgroup : sec_mil
Group String:  12:53:00+00:00
Group ALL or 0:  ('12', ':', '53', '00+00:00')
Group Span:  (245, 259)
Group Span 1:  (2

### Usando expressões regulares para extrair dados
Agora que cobrimos o básico e tivemos uma visão geral do Regex, usaremos o Regex para raspar (extrair) dados em massa de maneira semelhante ao uso de XPath, seletores CSS, `pyquery`, `bs4` e assim por diante, escolhendo entre a implementação de Regex, XPath, `pyquery` e muito mais. Isso depende dos requisitos e viabilidade do acesso à web e da disponibilidade do conteúdo.

Nem sempre é um requisito que o conteúdo seja desestruturado para aplicar Regex e extrair dados. O Regex pode ser implementado para conteúdo da Web estruturado e não estruturado encontrado para extrair os dados desejados. Nesta seção, exploraremos alguns exemplos ao usar Regex e suas várias propriedades.

#### Exemplo 1 – extrair conteúdo baseado em HTML
Neste exemplo, usaremos o conteúdo HTML do arquivo `regexHTML.html` e aplicaremos um padrão Regex para extrair informações como as seguintes:
* Elementos HTML
* Os atributos do elemento (`key` e `values`)
* O conteúdo do elemento

Este exemplo fornecerá uma visão geral de como podemos lidar com vários elementos, valores e assim por diante que existem dentro do conteúdo da Web e como podemos aplicar Regex para extrair esse conteúdo. As etapas que aplicaremos no código a seguir serão úteis para processar HTML e conteúdo semelhante.

In [None]:
"""
<html>
<head>
	<title>Welcome to Web Scraping: Example</title>
	<style type="text/css">
	....
	</style>
</head>
<body>
	<h1 style="color:orange;">Welcome to Web Scraping</h1>
	 Links:
	<a href="https://www.google.com" style="color:red;">Google</a>
	<a class="classOne" href="https://www.yahoo.com">Yahoo</a>
	<a id="idOne" href="https://www.wikipedia.org" style="color:blue;">Wikipedia</a>
	<div>
		<p id="mainContent" class="content">
			<i>Paragraph contents</i>
			<img src="mylogo.png" id="pageLogo" class="logo"/>
		</p>
		<p class="content" id="subContent">
			<i style="color:red">Sub paragraph content</i>
			<h1 itemprop="subheading">Sub heading Content!</h1>
		</p>
	</div>
</body>
</html>
"""

O código anterior é a fonte da página HTML que usaremos. O conteúdo aqui é estruturado e existem várias maneiras de lidar com isso.
No código a seguir, usaremos funções como as seguintes:
* `read_file()`: Isso lerá o arquivo HTML e retornará a fonte da página para processamento adicional.
* `applyPattern()`: Isso aceita um argumento de padrão, ou seja, o padrão Regex para localizar conteúdo, que é aplicado à fonte HTML usando `re.findall()` e imprime informações como uma lista de elementos pesquisados e suas contagens.

Para começar, vamos importar `re` e `bs4`:

In [22]:
import re
from bs4 import BeautifulSoup
def read_file():
    # Read and return content from file (.html).
    content = open("regexHTML.html", "r")
    pageSource = content.read()
    return pageSource

def applyPattern(pattern):
    # Applies regex pattern provided to Source and prints count and contents
    elements = re.findall(pattern, page) #apply pattern to source
    print("Pattern r'{}' ,Found total: {}".format(pattern,len(elements)))
    print(elements) #print all found tags
    return

if __name__ == "__main__":
    page = read_file() #read HTML file

Aqui, `page` é uma fonte de página HTML que é lida de um arquivo HTML usando `read_file()`. Também importamos o `BeautifulSoup` no código anterior para extrair nomes de tags HTML individuais e apenas para comparar a implementação do código e os resultados encontrados usando `soup.find_all()` e um padrão Regex que aplicaremos:

In [23]:
soup = BeautifulSoup(page, 'lxml')
print([element.name for element in soup.find_all()])

['html', 'head', 'title', 'style', 'body', 'h1', 'a', 'a', 'a', 'div', 'p', 'i', 'img', 'p', 'i', 'h1']


Para encontrar todas as tags HTML que existem dentro da `page`, usamos o método `find_all()` com a `soup` como objeto do `BeautifulSoup` usando o analisador `lxml`.

Aqui, estamos encontrando todos os nomes de tags HTML que não possuem atributos. `\w+` corresponde a qualquer palavra com um ou mais caracteres:

In [24]:
applyPattern(r'<(\w+)>')

Pattern r'<(\w+)>' ,Found total: 6
['html', 'head', 'title', 'body', 'div', 'i']


Encontrar todas as tags ou elementos HTML que não terminem com `>` ou contenham alguns atributos pode ser encontrado com a ajuda do caractere de espaço, ou seja, `\s`:

In [25]:
applyPattern(r'<(\w+)\s') #Finding Elements with attributes

Pattern r'<(\w+)\s' ,Found total: 10
['style', 'h1', 'a', 'a', 'a', 'p', 'img', 'p', 'i', 'h1']


Agora, combinando todos esses padrões, estamos listando todas as tags HTML que foram encontradas na fonte da página. O mesmo resultado também foi obtido no código anterior usando `soup.find_all()` e o atributo `name`:

In [26]:
applyPattern(r'<(\w+)\s?') #Finding all HTML element

Pattern r'<(\w+)\s?' ,Found total: 16
['html', 'head', 'title', 'style', 'body', 'h1', 'a', 'a', 'a', 'div', 'p', 'i', 'img', 'p', 'i', 'h1']


Vamos encontrar o nome do atributo, conforme encontrado no elemento HTML:

In [27]:
applyPattern(r'<\w+\s+(.*?)=') #Finding attributes name

Pattern r'<\w+\s+(.*?)=' ,Found total: 10
['type', 'style', 'href', 'class', 'id', 'id', 'src', 'class', 'style', 'itemprop']


Como podemos ver, havia apenas 10 atributos listados. Na fonte HTML, algumas tags contêm mais de um atributo, como `<a href="https://www.google.com" style="color:red;">Google</a>`, e apenas o primeiro atributo foi encontrado usando o padrão fornecido.

Vamos corrigir isso. Podemos selecionar palavras com o caractere `=` depois delas usando o padrão `r'(\w+)='`, o que resultará em todos os atributos encontrados na fonte da página sendo retornados:

In [28]:
applyPattern(r'(\w+)=') #Finding names of all attributes

Pattern r'(\w+)=' ,Found total: 18
['type', 'style', 'href', 'style', 'class', 'href', 'id', 'href', 'style', 'id', 'class', 'src', 'id', 'class', 'class', 'id', 'style', 'itemprop']


Da mesma forma, vamos encontrar todos os valores para os atributos que encontramos. O código a seguir lista os valores dos atributos e compara os 18 atributos listados anteriormente. Apenas 9 valores foram encontrados. Com o padrão que usamos aqui, `r'=\"(\w+)\"'` só encontrará os caracteres da palavra. Alguns dos valores de atributo continham caracteres que não são palavras, como `<a href="https://www.google.com" style="color:red;">`:

In [29]:
applyPattern(r'=\"(\w+)\"')

Pattern r'=\"(\w+)\"' ,Found total: 9
['classOne', 'idOne', 'mainContent', 'content', 'pageLogo', 'logo', 'content', 'subContent', 'subheading']


Aqui, os valores de atributos completos são listados usando o padrão apropriado que analisamos. Os valores de atributo de conteúdo também continham caracteres que não são palavras, como `;`, `/`, `:` e `.`. Em Regex, podemos incluir esses caracteres no padrão individualmente, mas essa abordagem pode não ser apropriada em todos os casos.

Nesse caso, o padrão que inclui `\w` e o caractere sem espaço em branco, `\S`, se encaixa perfeitamente, ou seja, `r'=\"([\w\S]+)\"`:

In [30]:
applyPattern(r'=\"([\w\S]+)\"')

Pattern r'=\"([\w\S]+)\"' ,Found total: 18
['text/css', 'color:orange;', 'https://www.google.com', 'color:red;', 'classOne', 'https://www.yahoo.com', 'idOne', 'https://www.wikipedia.org', 'color:blue;', 'mainContent', 'content', 'mylogo.png', 'pageLogo', 'logo', 'content', 'subContent', 'color:red', 'subheading']


Por fim, vamos coletar todo o texto dentro dos elementos HTML encontrados entre as tags HTML de abertura e fechamento:

In [31]:
applyPattern(r'\>(.*)\<')

Pattern r'\>(.*)\<' ,Found total: 8
['Welcome to Web Scraping: Example', 'Welcome to Web Scraping', 'Google', 'Yahoo', 'Wikipedia', 'Paragraph contents', 'Sub paragraph content', 'Sub heading Content!']


Ao aplicar Regex ao conteúdo, é obrigatória a análise preliminar do tipo de conteúdo e dos valores a serem extraídos. Isso ajudará a obter os resultados necessários e pode ser feito em uma tentativa.

### Exemplo 2 – extraindo localizações de revendedores
Neste exemplo, estaremos extraindo conteúdo de `http://godfreysfeed.com/dealersandlocations.php`. Este site contém informações de localização de revendedores, que são mostradas na captura de tela a seguir:

In [None]:
"""
import re
import requests
def read_url(url):
    '''
	Handles URL Request and Response
	Loads the URL provided using requests and returns the text of page source
	'''
    pageSource = requests.get(url).text
    return pageSource
if __name__ == "__main__":
"""

Para este e os outros exemplos desta seção, usaremos as bibliotecas `re` e `requests` para recuperar a página fonte, ou seja, `pageSource`. Aqui, usaremos a função `read_url()` para fazer isso.

A página contém elementos HTML `\<form>` para que possamos pesquisar revendedores com base no CEP inserido.

Você pode realizar o envio do formulário com CEP ou extrair o conteúdo do mapa. Ao analisar a fonte da página, descobriremos que não há elementos HTML com informações dos revendedores. A implementação do Regex se encaixa perfeitamente neste caso. Aqui, as informações dos revendedores são encontradas dentro do código JavaScript com variáveis como `latLng` e `infoWindowContent`.

Agora continuaremos carregando a fonte da página para o URL desejado e implementando o Regex para encontrar dados:

In [None]:
"""
dataSet=list() #collecting data extracted
sourceUrl = 'http://godfreysfeed.com/dealersandlocations.php'
page = read_url(sourceUrl) #load sourceUrl and return the page source
"""

Com a fonte da página obtida de `read_url()`, vamos fazer uma análise básica e construir um padrão para coletar informações de latitude e longitude. Precisaremos de dois padrões distintos para o endereço do revendedor e valores de coordenadas, respectivamente. A saída de ambos os padrões pode ser combinada para obter os resultados finais:

In [34]:
import re
import requests
def read_url(url):
    '''
	Handles URL Request and Response
	Loads the URL provided using requests and returns the text of page source
	'''
    pageSource = requests.get(url).text
    return pageSource
if __name__ == "__main__":
    dataSet=list() #collecting data extracted
    sourceUrl = 'http://godfreysfeed.com/dealersandlocations.php'
    page = read_url(sourceUrl) #load sourceUrl and return the page source

    #Defining pattern matching latitude and longitude as found in page.
    pLatLng= r'var latLng = new google.maps.LatLng\((?P<lat>.*)\,\s*(?P<lng>.*)\)\;'
    #applying pattern to page source
    latlngs = re.findall(pLatLng,page)
    print("Findall found total LatLngs: ", len(latlngs))
    #Print coordinates found
    print(latlngs)

Findall found total LatLngs:  60
[('34.7441954', '-84.9719608'), ('34.8752421', '-83.9716038'), ('34.5532439', '-83.9674074'), ('32.4317329', '-81.7492182'), ('33.815868', '-83.43338'), ('34.2962829', '-83.0061322'), ('33.7340136', '-82.7472304'), ('33.1062557', '-81.9850557'), ('35.546017', '-82.6755575'), ('30.8847346', '-84.3244161'), ('34.2794118', '-84.2958869'), ('33.0545709', '-84.1557495'), ('32.949713', '-83.8041011'), ('34.7553851', '-85.1095589'), ('34.2551216', '-85.0659214'), ('33.3210843', '-83.3860335'), ('32.5580749', '-84.6513046'), ('34.5190443', '-83.5284045'), ('31.3201199', '-83.92402'), ('33.5783708', '-83.184201'), ('30.8103061', '-83.2608454'), ('31.2028754', '-82.316785'), ('33.0342974', '-83.938242'), ('33.4763201', '-85.1087684'), ('33.0089174', '-83.5341918'), ('34.3924623', '-84.9333769'), ('33.2791285', '-82.9646478'), ('33.9952031', '-83.7346064'), ('32.3689727', '-81.2693912'), ('34.1839946', '-86.8472316'), ('32.7293279', '-82.719859'), ('34.5101355', '

Agora que temos as coordenadas do revendedor, vamos descobrir o nome do revendedor, endereço e mais.

Havia também um total de 60 informações baseadas em endereços, que foram encontradas usando o padrão `pDealers`. Observe que o conteúdo do revendedor está no formato HTML e que a implementação adicional do Regex será necessária para obter títulos individuais, como `nome`, `endereço` e `cidade`:

In [36]:
#Defining pattern to find dealer from page.
pDealers = r'infoWindowContent = infoWindowContent\+\s*\"(.*?)\"\;'
#applying dealers pattern to page source
dealers = re.findall(pDealers, page)
print("Findall found total Address: ", len(dealers))
#Print dealers information found
print(dealers)

Findall found total Address:  60
["<strong><span style='color:#e5011c;'>41 Feed and Garden Center</span></strong><br><strong>1725 S Dixie Hwy</strong><br><strong>Dalton, GA</strong><br><strong>30720</strong><br><br>", "<strong><span style='color:#e5011c;'>American Cowboy Shop</span></strong><br><strong>513 D Murphy Hwy</strong><br><strong>Blairsville, GA</strong><br><strong>30512</strong><br><br>", "<strong><span style='color:#e5011c;'>Anderson&apos;s Feed and Hardware</span></strong><br><strong>88 Millies Place</strong><br><strong>Dahlonega, GA</strong><br><strong>30533</strong><br><br>", "<strong><span style='color:#e5011c;'>Anderson&apos;s General Store</span></strong><br><strong>23736 US Hwy 80 E</strong><br><strong>Statesboro, GA</strong><br><strong>30458</strong><br><br>", "<strong><span style='color:#e5011c;'>Bar G Horse & Cattle Supply</span></strong><br><strong>1060 Astondale Road</strong><br><strong>Bishop, GA</strong><br><strong>30621</strong><br><br>", "<strong><span style=

Agora que temos resultados de `latlngs` e `dealers`, vamos coletar as partes individuais do endereço do revendedor. Os dados brutos para os revendedores contêm algumas tags HTML e foram usados para dividir e limpar as informações de endereço do revendedor. Como `re.findall()` retorna a lista do Python, a indexação também pode ser útil para recuperar componentes de endereço:

In [42]:
d=0 #maintaining loop counter

for dealer in dealers:
    dealerInfo = re.split(r'<br>',re.sub(r'<br><br>','',dealer))
    #extract individual item from dealerInfo
    name = re.findall(r'\'>(.*?)</span',dealerInfo[0])[0]
    address = re.findall(r'>(.*)<',dealerInfo[1])[0]
    city = re.findall(r'>(.*),\s*(.*)<',dealerInfo[2])[0][0]
    state = re.findall(r'>(.*),\s*(.*)<',dealerInfo[2])[0][1]
    zip = re.findall(r'>(.*)<',dealerInfo[3])[0]
    lat = latlngs[d][0]
    lng = latlngs[d][1]
    d+=1
    #appending items to dataset
    dataSet.append([name,address,city,state,zip,lat,lng])
print(dataSet) #[[name,address, city, state, zip, lat,lng],]

[['41 Feed and Garden Center', '1725 S Dixie Hwy', 'Dalton', 'GA', '30720', '34.7441954', '-84.9719608'], ['American Cowboy Shop', '513 D Murphy Hwy', 'Blairsville', 'GA', '30512', '34.8752421', '-83.9716038'], ['Anderson&apos;s Feed and Hardware', '88 Millies Place', 'Dahlonega', 'GA', '30533', '34.5532439', '-83.9674074'], ['Anderson&apos;s General Store', '23736 US Hwy 80 E', 'Statesboro', 'GA', '30458', '32.4317329', '-81.7492182'], ['Bar G Horse & Cattle Supply', '1060 Astondale Road', 'Bishop', 'GA', '30621', '33.815868', '-83.43338'], ['Beggs Farm Supply', '5845 Royston Hwy', 'Canon', 'GA', '30520', '34.2962829', '-83.0061322'], ['Burdette Mill', '216 Depot Street', 'Washington', 'GA', '30673', '33.7340136', '-82.7472304'], ['Burke Feed', '369 Hwy 56 N', 'Waynesboro', 'GA', '30830', '33.1062557', '-81.9850557'], ['Candler Feed and Seed', '1275 Smokey Park Hwy', 'Candler', 'NC', '28715', '35.546017', '-82.6755575'], ['Cash & Carry Feed', '135 N McGriff St.', 'Whigham', 'GA', '398

Neste exemplo, tentamos extrair dados usando padrões diferentes e recuperamos as informações de um revendedor do URL fornecido.

#### Exemplo 3 – extraindo conteúdo XML
Neste exemplo, extrairemos o conteúdo do arquivo `sitemap.xml`, que pode ser baixado em `https://webscraping.com/sitemap.xml`.

Ao analisar o conteúdo XML, podemos ver que existem diferentes tipos de URLs como nós filhos, ou seja, `\<loc>`. A partir desses URLs, extrairemos o seguinte:
* URLs de blogs (URLs com uma string `/blog/`, como `https://webscraping.com/blog/Why-Python/`)
* Títulos obtidos dos URLs do blog (*Why-Python*)
* URLs de categoria (URLs com uma string `/category/`, como `https://webscraping.com/blog/category/beautifulsoup`)
* Títulos de categoria obtidos de URLs de categoria (*beautifulsoup*)

> **Títulos de blog e títulos de categoria obtidos do código são recuperados da URL ou representações do conteúdo real que está disponível na URL. Os títulos reais podem ser diferentes.**

Para começar, vamos importar a biblioteca re Python e ler o conteúdo do arquivo, além de criar algumas listas Python para coletar dados relevantes:

In [43]:
import re
filename = 'webscraping_sitemap.xml'
dataSetBlog = [] # collect Blog title information from URLs except 'category'
dataSetBlogURL = [] # collects Blog URLs
dataSetCategory = [] # collect Category title
dataSetCategoryURL = [] # collect Category URLs
page = open(filename, 'r').read()

A partir do conteúdo XML, ou seja, da `page`, precisamos encontrar o padrão de URL. `pattern` usado no código corresponde e retorna todas as URLs dentro do nó `\<loc>`. `urlPatterns` (`<class 'list'>`) é um objeto de lista Python que contém URLs pesquisados e é iterado para coletar e processar as informações desejadas:

In [44]:
#Pattern to be searched, found inside <loc>(.*)</loc>
pattern = r"loc>(.*)</loc"
urlPatterns = re.findall(pattern, page) #finding pattern on page

Agora, vamos combinar uma URL, como `https://webscraping.com/blog/Google-App-Engine-limitations/`, que contém uma string de `blog` e anexá-la a `dataSetBlogURL`. Existem também alguns outros URLs, como `https://webscraping.com/blog/8/`, que serão ignorados enquanto extraímos `blogTitle`.

Além disso, qualquer `blogTitle` encontrado como texto igual à `category` será ignorado. O padrão `r'blog/([A-Za-z0-9\-]+)` corresponde a valores alfabéticos e numéricos com o `-` character:

In [51]:
for url in urlPatterns: #iterating individual url inside urlPatterns
    if re.match(r'.*blog', url): #Blog related
        dataSetBlogURL.append(url)
        if re.match(r'[\w\-]', url):
	        blogTitle = re.findall(r'blog/([A-Za-z0-9\-]+)', url)
	        if len(blogTitle) > 0 and not re.match('(category)', blogTitle[0]):
                #blogTitle is a List, so index is applied.
		        dataSetBlog.append(blogTitle[0])
		        print("Blogs URL: ", len(dataSetBlogURL))
		        print(dataSetBlogURL)

Blogs URL:  161
['https://webscraping.com/blog/What-is-web-scraping/', 'https://webscraping.com/blog/Typical-web-scraping-job/', 'https://webscraping.com/blog/Parsing-HTML-with-Python/', 'https://webscraping.com/blog/How-to-use-XPaths-robustly/', 'https://webscraping.com/blog/Web-scraping-with-regular-expressions/', 'https://webscraping.com/blog/The-SiteScraper-module/', 'https://webscraping.com/blog/Why-Python/', 'https://webscraping.com/blog/How-to-protect-your-data/', 'https://webscraping.com/blog/How-to-crawl-websites-without-being-blocked/', 'https://webscraping.com/blog/Scraping-JavaScript-based-web-pages-with-Chickenfoot/', 'https://webscraping.com/blog/Scraping-JavaScript-webpages-with-webkit/', 'https://webscraping.com/blog/I-love-AJAX/', 'https://webscraping.com/blog/Scraping-Flash-based-websites/', 'https://webscraping.com/blog/Scraping-dynamic-data/', 'https://webscraping.com/blog/Why-Google-App-Engine/', 'https://webscraping.com/blog/Why-web2py/', 'https://webscraping.com/

`dataSetBlog` conterá os seguintes títulos (parte de URL). O método `set()`, quando aplicado a `dataSetBlog`, retornará elementos exclusivos de `dataSetBlog`. Conforme mostrado no código a seguir, não há título duplicado dentro de `dataSetBlog`:

In [54]:
print("Blogs Title: ", len(dataSetBlog))
print("Unique Blog Count: ", len(set(dataSetBlog)))
print(dataSetBlog)
#print(set(dataSetBlog))

Blogs Title:  237
Unique Blog Count:  79
['What-is-web-scraping', 'Typical-web-scraping-job', 'Parsing-HTML-with-Python', 'How-to-use-XPaths-robustly', 'Web-scraping-with-regular-expressions', 'The-SiteScraper-module', 'Why-Python', 'How-to-protect-your-data', 'How-to-crawl-websites-without-being-blocked', 'Scraping-JavaScript-based-web-pages-with-Chickenfoot', 'Scraping-JavaScript-webpages-with-webkit', 'I-love-AJAX', 'Scraping-Flash-based-websites', 'Scraping-dynamic-data', 'Why-Google-App-Engine', 'Why-web2py', 'Open-sourced-web-scraping-code', 'Fixed-fee-or-hourly', 'Caching-crawled-webpages', 'Best-website-for-freelancers', 'Why-reinvent-the-wheel', 'Client-Feedback', 'Image-efficiencies', 'Extracting-article-summaries', 'Increase-your-Google-App-Engine-quotas-for-free', 'New-scraping-quote-tool', 'Automating-CAPTCHAs', 'Google-Storage', 'Crawling-with-threads', 'Using-Google-Cache-to-crawl-a-website', 'Using-Google-Translate-to-crawl-a-website', 'Google-App-Engine-limitations', '

Agora, vamos extrair informações relevantes para a URL usando a `category`. O padrão Regex `r'.*category'`, que corresponde a `url` da iteração, é coletado ou anexado a `datasetCategoryURL.categoryTitle` é extraído da `url` que corresponde ao padrão `r'category/([\w\s\-]+)` e é adicionado a `dataSetCategory`:

In [57]:
for url in urlPatterns:
	if re.match(r'.*category', url): #Category Related
	    dataSetCategoryURL.append(url)
	    categoryTitle = re.findall(r'category/([\w\s\-]+)', url)
	    dataSetCategory.append(categoryTitle[0])
print("Category URL Count: ", len(dataSetCategoryURL))
print(dataSetCategoryURL)

Category URL Count:  46
['https://webscraping.com/category/big-picture/', 'https://webscraping.com/category/business/', 'https://webscraping.com/category/lxml/', 'https://webscraping.com/category/python/', 'https://webscraping.com/category/html/', 'https://webscraping.com/category/xpath/', 'https://webscraping.com/category/regex/', 'https://webscraping.com/category/sitescraper/', 'https://webscraping.com/category/opensource/', 'https://webscraping.com/category/ip/', 'https://webscraping.com/category/ocr/', 'https://webscraping.com/category/captcha/', 'https://webscraping.com/category/google/', 'https://webscraping.com/category/user-agent/', 'https://webscraping.com/category/crawling/', 'https://webscraping.com/category/proxies/', 'https://webscraping.com/category/javascript/', 'https://webscraping.com/category/chickenfoot/', 'https://webscraping.com/category/webkit/', 'https://webscraping.com/category/qt/', 'https://webscraping.com/category/ajax/', 'https://webscraping.com/category/fla

Por fim, a saída a seguir exibe o título que foi recuperado de `dataSetCategory`, bem como suas contagens:

In [58]:
print("Category Title Count: ", len(dataSetCategory))
print("Unique Category Count: ", len(set(dataSetCategory)))
print(dataSetCategory)
#returns unique element from List similar to dataSetCategory.
#print(set(dataSetCategory))

Category Title Count:  46
Unique Category Count:  46
['big-picture', 'business', 'lxml', 'python', 'html', 'xpath', 'regex', 'sitescraper', 'opensource', 'ip', 'ocr', 'captcha', 'google', 'user-agent', 'crawling', 'proxies', 'javascript', 'chickenfoot', 'webkit', 'qt', 'ajax', 'flash', 'linux', 'gae', 'web2py', 'cache', 'elance', 'freelancing', 'scrapy', 'beautifulsoup', 'website', 'image', 'information-retrieval', 'concurrent', 'mobile', 'screenshot', 'example', 'learn', 'efficiency', 'sqlite', 'cookies', 'database', 'mobile-apps', 'android', 'oxford', 'book']


A partir desses casos de exemplo, podemos ver que, usando Regex, podemos escrever padrões que visam dados específicos de fontes como páginas da Web, HTML ou XML.

Recursos Regex, como pesquisa, divisão e iteração, podem ser implementados com a ajuda de várias funções da biblioteca `re` Python. Embora o Regex possa ser implementado em qualquer tipo de conteúdo, o conteúdo não estruturado é o preferido.

O conteúdo da Web estruturado com elementos que carregam atributos são preferidos ao usar seletores **XPath** e **CSS**.