# API WWW


<cite>
Ljubomir, P. Introdução à Computação Usando Python - Um Foco no Desenvolvimento de Aplicações. São Paulo: Grupo GEN, 2016. 9788521630937. Disponível em: https://integrada.minhabiblioteca.com.br/#/books/9788521630937/. Acesso em: 15 Nov 2020
</cite>

<hr>

## urlib.request
Normalmente usamos navegadores para acessar as páginas na Web. Um navegador, porém, é apenas um tipo de cliente Web; qualquer programa pode atuar como um cliente Web e acessar e baixar recursos na Web. Em Python, o módulo urllib.request da Biblioteca Padrão confere essa capacidade aos desenvolvedores. O módulo contém funções e classes que permitem aos programas Python abrirem e lerem recursos na Web de um modo semelhante a como os arquivos são abertos e lidos. A função urlopen() no módulo urlib.request é semelhante à função embutida open(), usada para abrir arquivos (locais). Entretanto, existem três diferenças: 1.urlopen() aceita como entrada um URL, em vez de um nome de arquivo local. 2.Ela retorna uma solicitação HTTP sendo enviada ao servidor Web que hospeda o conteúdo. 3.Ela retorna uma resposta HTTP completa.

In [1]:
from urllib.request import urlopen
response = urlopen("https://developer.mozilla.org/pt-BR/docs/Learn/Server-side/Django/Introdu%C3%A7%C3%A3o")
type(response)


http.client.HTTPResponse

A classe ``HTTPResponse`` é considerada uma classe do tipo arquivo, pois aceita os métodos ``read()``, ``readline()`` e ``readlines()``, os mesmos métodos admitidos pelos tipos de objetos retornados pela função de abertura de arquivo open()`.

In [2]:
response.geturl()

'https://developer.mozilla.org/pt-BR/docs/Learn/Server-side/Django/Introdu%C3%A7%C3%A3o'

#### Para obter todos os cabeçalhos de resposta HTTP, você pode usar o método getheaders():

In [3]:
for header in response.getheaders():
    print(header[0], header[1], sep=': ')    

Content-Type: text/html; charset=utf-8
Content-Length: 262437
Connection: close
Access-Control-Allow-Origin: *
Cache-Control: public, max-age=0, s-maxage=300
Content-Language: pt-BR
Date: Mon, 16 Nov 2020 18:56:39 GMT
ETag: "ac4dd2ac4c9a6306ace9f01c0a9c43a0"
Server: gunicorn/20.0.4
Strict-Transport-Security: max-age=63072000
X-Content-Type-Options: nosniff
X-Frame-Options: DENY
X-kuma-revision: 1643170
X-XSS-Protection: 1; mode=block
Vary: Accept-Encoding,Cookie
X-Cache: Miss from cloudfront
Via: 1.1 3b33e55fb498f8fe9124a58a92807343.cloudfront.net (CloudFront)
X-Amz-Cf-Pop: GRU3-C1
X-Amz-Cf-Id: VTV6yqeI0tBuLpzvGXneraXxEZGLqMDz_96XF4YAcQ6JotxMmYzY6w==


O método ``read()`` retornará o conteúdo do recurso. Se o arquivo for um documento **HTML**, por exemplo, então seu conteúdo é retornado. Observe, porém, que o método ``read()`` retorna um objeto do tipo **bytes**. Isso porque os recursos abertos por ``urlopen()`` poderiam muito bem ser arquivos de áudio ou vídeo (ou seja, arquivos binários). O comportamento padrão para ``urlopen()`` é considerar que o recurso é um arquivo **binário** e, quando esse arquivo é lido, uma sequência de bytes é retornada. Se o recurso for um arquivo HTML (ou seja, um arquivo de texto), faz sentido decodificar a sequência de bytes em caracteres Unicode que eles representam. Usamos o método ``decode()`` da classe bytes para conseguir isso:

In [4]:
bytesread = response.read()
type(bytesread)

bytes

In [5]:
html = bytesread.decode()
html

'\n\n\n\n\n<!DOCTYPE html>\n<html lang="pt" dir="ltr">\n<head prefix="og: http://ogp.me/ns#">\n  <link rel="preconnect" href="https://interactive-examples.mdn.mozilla.net" pr="0.75" />\n  <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n  <script>(function(d) { d.className = d.className.replace(/\\bno-js/, \'\'); })(document.documentElement);</script>\n  <title>Introdução ao Django | MDN</title>\n\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n  <meta name="robots" content="index, follow">\n\n  \n<link rel="preload" href="/static/fonts/locales/ZillaSlab-Regular.subset.bbc33fb47cf6.woff2" as="font" type="font/woff2"\n    crossorigin />\n<link rel="preload" href="/static/fonts/locales/ZillaSlab-Bold.subset.e96c15f68c68.woff2" as="font" type="font/woff2"\n    crossorigin />\n\n  <link rel="home" href="/pt-BR/">\n  <link rel="license" href="#license">\n\n  <link href="/static/build/styles/react-header.c2034e7be118.css" rel="styleshe

In [6]:
type(html)

str

In [7]:
html.count('Django')

479

Com tudo o que aprendemos até aqui, podemos escrever uma função que aceita um URL de uma página Web como entrada e retorna o conteúdo do arquivo-fonte da página Web como uma string:

In [8]:
def getSource(url, saveAs = None):
    'returns the content of resource specified by url as a string'
    response = urlopen(url)
    html = response.read()
    html = html.decode()
    if saveAs != None:
        infile = open(saveAs, 'w')
        infile.write(html)
        infile.flush()
        return print('''Arquivo "{}" salvo com sucesso!'''.format(saveAs))
    else:
        return html

In [9]:
getSource('https://developer.mozilla.org/pt-BR/docs/Aprender/CSS')

'\n\n\n\n\n<!DOCTYPE html>\n<html lang="pt-BR" dir="ltr">\n<head prefix="og: http://ogp.me/ns#">\n  <link rel="preconnect" href="https://interactive-examples.mdn.mozilla.net" pr="0.75" />\n  <meta charset="utf-8">\n  <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n  <script>(function(d) { d.className = d.className.replace(/\\bno-js/, \'\'); })(document.documentElement);</script>\n  <title>Aprenda a estilizar HTML utilizando CSS - Aprendendo desenvolvimento web | MDN</title>\n\n  <meta name="viewport" content="width=device-width, initial-scale=1">\n  <meta name="robots" content="index, follow">\n\n  \n<link rel="preload" href="/static/fonts/locales/ZillaSlab-Regular.subset.bbc33fb47cf6.woff2" as="font" type="font/woff2"\n    crossorigin />\n<link rel="preload" href="/static/fonts/locales/ZillaSlab-Bold.subset.e96c15f68c68.woff2" as="font" type="font/woff2"\n    crossorigin />\n\n  <link rel="home" href="/pt-BR/">\n  <link rel="license" href="#license">\n\n  <link href="/static/bu

#### Problema Prático 11.1

Escreva o método news() que aceita um URL de um site Web de notícias e uma lista de tópicos de notícias (ou seja, strings) e calcula o número de ocorrências de cada tópico nas notícias.

In [10]:
def news(url, topics):
    'Return occour of topics in url'
    html = getSource(url).lower()
    for topic in topics:
        appears = html.count(topic)
        if appears == 0:
            print('''"{}" not found in "{}"'''.format(topic, url))
        else:
            print('''"{0}" appears {1} time{2}.'''.format(topic, appears, '' if appears == 1 else 's'))

In [11]:
news('https://www.bbc.com/news',['economy','climate','vaccine', 'Trump', 'Coronavirus'])

"economy" appears 6 times.
"climate" not found in "https://www.bbc.com/news"
"vaccine" appears 7 times.
"Trump" not found in "https://www.bbc.com/news"
"Coronavirus" not found in "https://www.bbc.com/news"


In [12]:
news('https://noticias.uol.com.br/',['coronavirus', 'vacina', 'óbitos', 'bolsonaro', 'eleições', 'incêndio'])

"coronavirus" appears 6 times.
"vacina" appears 7 times.
"óbitos" not found in "https://noticias.uol.com.br/"
"bolsonaro" appears 45 times.
"eleições" appears 12 times.
"incêndio" appears 1 time.


<hr>

## Módulo html.parser

O módulo ``urllib.request`` oferece ferramentas para solicitar e <mark>baixar recursos como páginas Web</mark>. Se o recurso baixado for um arquivo HTML, podemos lê-lo em uma <em>string</em> e processá-lo usando operadores e métodos de <em>string</em>. Isso pode ser suficiente para responder a algumas perguntas sobre o conteúdo da página Web, mas que tal, por exemplo, apanhar todos os URLs associados a tags de âncora na página Web?

Se você parar por um instante e pensar a respeito disso, seria muito trabalhoso usar operadores e métodos de string para encontrar todos os URLs de tag de âncora em um arquivo HTML. Mas é fácil perceber o que precisa ser feito: percorrer o arquivo e apanhar o valor do atributo ``href`` em cada tag de início de âncora. Porém, para fazer isso, precisamos de um modo de reconhecer os diferentes elementos do arquivo HTML (o título, cabeçalhos, links, imagens, dados de texto etc.), em particular, as tags de início do elemento de âncora. O processo de analisar um documento em ordem para quebrá-lo em componentes e obter sua estrutura é denominado análise.

O módulo ``html.parser`` da Biblioteca Padrão Python oferece uma classe, HTMLParser, que analisa arquivos HTML. Quando alimentada por um arquivo HTML, ela o processará do início ao fim, achará <u>todas as tags de início, tags de fim, dados de texto e outros componentes do arquivo-fonte</u>, e “processará” cada um deles.

A classe ``HTMLParser`` tem suporte para o método ``feed()`` que aceita como entrada o conteúdo de um arquivo-fonte HTML, em formato de string. Portanto, para analisar o arquivo, primeiro precisamos lê-lo para uma string e depois alimentá-lo no analisador:

In [13]:
getSource('https://www.w3schools.com/css/css_background.asp', 'css_background.html')

Arquivo "css_background.html" salvo com sucesso!


In [14]:
from html.parser import HTMLParser
# Obtendo o conteúdo html do arquivo a ser feito o parser
infile = open('css_background.html')
content = infile.read()
infile.close()

parser = HTMLParser()
parser.feed(content)

Quando a última linha é executada (isto é, quando o conteúdo da string é alimentado no <var>parser</var>) o analisador <mark>divide o conteúdo de string em **tokens** que correspondem, em HTML, às tags de início, tags de fim, dados de texto e outros componentes HTML</mark>, e depois manipula os tokens na ordem em que eles aparecem no arquivo-fonte. Isso significa que, para cada token, um método manipulador é invocado. Os manipuladores são métodos da classe ``HTMLParser``. Alguns deles são listados na Tabela:

<table>
    <tr>
        <th>Token</th>
        <th>Manipulador</th>
        <th>Explicação</th>
    </tr>
    <tr>
        <td>&lt;tag atribs&gt;</td>
        <td>handle_starttag(tag, attrs)</td>
        <td>Manipulador da tag de início</td>
    </tr>
    <tr>
        <td>&lt;/tag atribs&gt;</td>
        <td>handle_endtag(tag)</td>
        <td>Manipulador da tag de fim</td>
    </tr>
    <tr>
        <td>data</td>
        <td>handle_data(dados)</td>
        <td>Manipulador de quaisquer dados de texto <mark>entre a tag início e fim</mark></td>
    </tr>    
</table>


### Redefinindo os Manipuladores de HTMLParser 
Vamos desenvolver um analisador que exibe o valor do URL do atributo ``href`` contido em cada tag de início de âncora do arquivo **HTML** alimentado. Para conseguir esse comportamento, o manipulador ``HTMLParser`` que precisa ser redefinido é o método ``handle_starttag()``. Lembre-se de que esse método trata de cada token de tag de início. Em vez de não fazer nada, queremos agora que ele verifique se a tag de entrada é uma tag de âncora e, se for, ache o atributo ``href`` na lista de atributos e mostre seu valor. Veja a implementação da nossa classe LinkParser:

In [15]:
class LinkParser(HTMLParser):
    '''analisador de documento HTML que mostra valores dos atributos
    href nas tags de início de âncora'''
    def handle_starttag(self, tag, attrs):
        'mostra o valor do atributo href, se houver'
        if tag == 'a':
            # procura atributo href e mostra seu valor
            for attr in attrs:
                if attr[0] == 'href':
                    print(attr[1])

In [16]:
# Obtendo o conteúdo html do arquivo a ser feito o parser
infile = open('css_background.html')
content = infile.read()
infile.close()

linkparser = LinkParser()
linkparser.feed(content)

//www.w3schools.com
javascript:void(0);
javascript:void(0);
/default.asp
/html/default.asp
/css/default.asp
/js/default.asp
/sql/default.asp
/python/default.asp
/php/default.asp
/bootstrap/bootstrap_ver.asp
/howto/default.asp
/w3css/default.asp
/jquery/default.asp
/java/default.asp
javascript:void(0);
javascript:void(0);
javascript:void(0);
javascript:void(0);
/forum/default.asp
/cert/default.asp
javascript:void(0);
javascript:void(0);
/html/default.asp
/css/default.asp
/bootstrap/bootstrap_ver.asp
/w3css/default.asp
/colors/default.asp
/icons/default.asp
/graphics/default.asp
/graphics/svg_intro.asp
/graphics/canvas_intro.asp
/howto/default.asp
/sass/default.php
/xml/default.asp
/xml/ajax_intro.asp
/xml/dom_intro.asp
/xml/xml_dtd_intro.asp
/xml/schema_intro.asp
/xml/xsl_intro.asp
/xml/xpath_intro.asp
/xml/xquery_intro.asp
/js/default.asp
/jquery/default.asp
/react/default.asp
/angular/default.asp
/js/js_json_intro.asp
/js/js_ajax_intro.asp
/appml/default.asp
/w3js/default.asp
/python/

#### Problema Prático 11.2 
Desenvolva a classe ``MyHTMLParser`` como uma subclasse de ``HTMLParser`` que, quando alimentada com um arquivo HTML, mostra os nomes das tags de início e fim na ordem em que aparecem no documento, e com um recuo proporcional à profundidade do elemento na estrutura de árvore do documento. Ignore os elementos HTML que não exigem uma tag de fim, como p e br.

In [17]:
class MyHTMLParser(HTMLParser):
    '''analisador de documento HTML que mostra valores dos atributos
    href nas tags de início de âncora'''
    tab = ''
    def __init__(self, tagsToIgnore = None):
        HTMLParser.__init__(self)
        self.tags = [] if tagsToIgnore is None else tagsToIgnore
    
    def handle_starttag(self, tag, attrs):
        if tag not in self.tags:
            'imprime a tag com tabulação'        
            print(MyHTMLParser.tab, tag, '⤵')
            MyHTMLParser.tab += '\t'
        
    def handle_endtag(self, tag):
        if tag not in self.tags:
            'imprime a tag retirando a tabulação'
            MyHTMLParser.tab = MyHTMLParser.tab[:-2]        
            print(MyHTMLParser.tab, tag, '⤴')

In [18]:
getSource('http://www.vision.ime.usp.br/~pmiranda/mac2166_1s17/aulas/P3/aulas_P3.html', 'mac2166.html')

Arquivo "mac2166.html" salvo com sucesso!


In [19]:
infile = open('mac2166.html')
content = infile.read()
infile.close()
myparser = MyHTMLParser(['meta', 'script', 'link', 'p', 'style', 'symbol', 'path', 'br'])
myparser.feed(content)

 html ⤵
	 head ⤵
		 body ⤵
			 h1 ⤵
		 h1 ⤴
		 h2 ⤵
	 h2 ⤴
	 b ⤵
 b ⤴
 h3 ⤵
 h3 ⤴
 b ⤵
 b ⤴
 pre ⤵
 pre ⤴
 b ⤵
 b ⤴
 img ⤵
	 pre ⤵
 pre ⤴
 h3 ⤵
 h3 ⤴
 img ⤵
	 pre ⤵
 pre ⤴
 img ⤵
	 b ⤵
 b ⤴
 pre ⤵
 pre ⤴
 b ⤵
 b ⤴
 pre ⤵
 pre ⤴
 img ⤵
	 b ⤵
 b ⤴
 img ⤵
	 h3 ⤵
 h3 ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 b ⤵
 b ⤴
 pre ⤵
 pre ⤴
 b ⤵
 b ⤴
 pre ⤵
 pre ⤴
 b ⤵
 b ⤴
 pre ⤵
 pre ⤴
 h3 ⤵
 h3 ⤴
 b ⤵
 b ⤴
 pre ⤵
 pre ⤴
 h3 ⤵
 h3 ⤴
 code ⤵
 code ⤴
 b ⤵
 b ⤴
 img ⤵
	 img ⤵
		 img ⤵
			 img ⤵
				 img ⤵
					 img ⤵
						 img ⤵
							 img ⤵
								 img ⤵
									 b ⤵
								 b ⤴
								 pre ⤵
							 pre ⤴
							 sup ⤵
						 sup ⤴
						 hr ⤵
							 h2 ⤵
						 h2 ⤴
						 h3 ⤵
					 h3 ⤴
					 code ⤵
				 code ⤴
				 b ⤵
			 b ⤴
			 code ⤵
		 code ⤴
		 code ⤵
	 code ⤴
	 code ⤵
 code ⤴
 pre ⤵
 pre ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 pre ⤵
 pre ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 pre ⤵
 pre ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 code ⤵
 code ⤴
 code ⤵
 code

<hr>

### Módulo urllib.parse 
O analisador ``LinkParser`` que acabamos de desenvolver exibe o valor do URL de cada atributo href de âncora. Por exemplo, quando executamos o código a seguir na página Web da missão do W3C, obtemos uma saída que inclui URLs HTTP relativas, como <mark>/Consortium/contact.html</mark>

In [20]:
rsrce = urlopen('http://www.w3.org/Consortium/mission.html')
content = rsrce.read().decode()
linkparser = LinkParser()
linkparser.feed(content)

/
/standards/
/participate/
/Consortium/membership
/Consortium/
/Consortium/
/Consortium/facts.html
/Consortium/presskit.html
/Consortium/sponsor/
/Consortium/Recruitment/
/Consortium/contact.html
/Help/
#w3c_content_body
/
/Consortium/
#openstand
#principles
#vision
http://open-stand.org/principles/
http://open-stand.org/
/WAI/
/International/
/standards/webofdevices/
/Mobile/
/standards/agents/Overview.html
/standards/webdesign/
/standards/webarch/
/standards/xml/
/standards/semanticweb/
/standards/webofservices/
/standards/semanticweb/
/standards/xml/security
/standards/webofservices/security
/standards/webdesign/privacy
/
/standards/
/participate/
/Consortium/membership
/Consortium/
/Consortium/contact
/Help/
/Consortium/sup
/Consortium/siteindex
http://lists.w3.org/Archives/Public/site-comments/
http://twitter.com/W3C
http://www.csail.mit.edu/
http://www.ercim.org/
http://www.keio.ac.jp/
http://ev.buaa.edu.cn/
/Consortium/Legal/ipr-notice


E se só estivermos interessados em coletar os URLs que correspondem a hyperlinks HTTP (ou seja, URLs cujo esquema seja o protocolo HTTP)? Observe que não podemos simplesmente dizer “colete os URLs que começam com a string http”, pois assim não conseguiríamos obter os URLs relativos, como <var>/Consortium/contact.html</var>. O que precisamos é de uma forma de construir um URL absoluto a partir de um URL relativo (como <var>/Consortium/contact.html</var>) e o URL da página Web que o contém (http://www.w3.org/Consortium/mission.html). O módulo urllib.parse da Biblioteca Padrão Python oferece alguns métodos que operam sobre URLs, incluindo um que faz exatamente o que queremos, o método ``urljoin()``. Veja um exemplo de uso:

In [21]:
from urllib.parse import urljoin
url = 'http://www.w3.org/Consortium/mission.html'
relative = '/Consortium/contact.html'
urljoin(url, relative)

'http://www.w3.org/Consortium/contact.html'

#### Analisador que Coleta Hyperlinks HTTP 
Agora, desenvolvemos outra versão da classe ``LinkParser``, que chamamos de ``Collector``. Ela coleta apenas URLs HTTP e, em vez de mostrá-los, os coloca em uma lista. Os URLs na lista estarão em seu formato absoluto, em vez de relativo. Por fim, a classe ``Collector`` também deverá ter suporte para o método ``getLinks()`` que retorna essa lista. Aqui está um exemplo de uso que esperamos de um analisador ``Collector``:

In [22]:
from urllib.parse import urljoin
from html.parser import HTMLParser
class Collector(HTMLParser):
    'Coleta as URLs de hyperlink e retorna uma lista'
    def __init__(self, url):
        HTMLParser.__init__(self)
        self.url = url
        self.links = []
        
    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            for attr in attrs:
                if attr[0] == 'href':
                    # compõe o caminho absoluto
                    absolute = urljoin(self.url, attr[1])
                    if absolute[:4] == 'http':
                        # coleta a URL
                        self.links.append(absolute)
                        
    def getLinks(self):
        'retorna a lista de hyperlinks'
        return self.links

In [53]:
url = 'http://www.w3.org/Consortium/mission.html'
resource = urlopen(url)
content = resource.read().decode()
collector = Collector(url)
collector.feed(content)
for link in collector.getLinks():
    print(link)

http://www.w3.org/
http://www.w3.org/standards/
http://www.w3.org/participate/
http://www.w3.org/Consortium/membership
http://www.w3.org/Consortium/
http://www.w3.org/Consortium/
http://www.w3.org/Consortium/facts.html
http://www.w3.org/Consortium/presskit.html
http://www.w3.org/Consortium/sponsor/
http://www.w3.org/Consortium/Recruitment/
http://www.w3.org/Consortium/contact.html
http://www.w3.org/Help/
http://www.w3.org/Consortium/mission.html#w3c_content_body
http://www.w3.org/
http://www.w3.org/Consortium/
http://www.w3.org/Consortium/mission.html#openstand
http://www.w3.org/Consortium/mission.html#principles
http://www.w3.org/Consortium/mission.html#vision
http://open-stand.org/principles/
http://open-stand.org/
http://www.w3.org/WAI/
http://www.w3.org/International/
http://www.w3.org/standards/webofdevices/
http://www.w3.org/Mobile/
http://www.w3.org/standards/agents/Overview.html
http://www.w3.org/standards/webdesign/
http://www.w3.org/standards/webarch/
http://www.w3.org/standa

#### Problema Prático 11.3
Aumente a classe ``Collector`` de modo que ela também colete todos os dados de texto em uma string que pode ser recuperada usando o método ``getData()``

In [23]:
from urllib.parse import urljoin
from html.parser import HTMLParser
class Collector(HTMLParser):
    'Coleta as URLs de hyperlink e dados textuais em listas'
    def __init__(self, url):
        HTMLParser.__init__(self)
        self.url = url
        self.links = []
        self.data = []
        
    def handle_starttag(self, tag, attrs):
        if tag == 'a':
            for attr in attrs:
                if attr[0] == 'href':
                    # compõe o caminho absoluto
                    absolute = urljoin(self.url, attr[1])
                    if absolute[:4] == 'http':
                        # coleta a URL
                        self.links.append(absolute)
                        
    def handle_data(self, data):
        'coleta o texto tratado (removendo quebra de linha e espaços exedentes)'
        # remove quebra de linha e espaços antes e depois do texto
        string = str(data).replace('\n','').strip()
        # remove espaços excedentes entre as palavras
        string = " ".join(string.split())
        if len(string) > 10:
            self.data.append(string)
                            
    def getLinks(self):
        'retorna a lista de hyperlinks'
        return self.links
    
    def getData(self):
        'retorna os dados coletados'
        return self.data

In [24]:
url = 'http://www.w3.org/Consortium/mission.html'
resource = urlopen(url)
content = resource.read().decode()
collector = Collector(url)
collector.feed(content)
texts = collector.getData()

In [25]:
len(texts)

52

<hr>

### Expressões Regulares

Como podemos reconhecer <b>endereços de e-mail</b> em um documento de texto? Normalmente, não achamos isso difícil. Entendemos que um endereço de e-mail segue um padrão de string: Um endereço de e-mail consiste em uma ID de usuário — ou seja, uma sequência de caracteres “permitidos” — seguida por um símbolo de @ seguido por um nome de host — ou seja, uma sequência separada por pontos com caracteres permitidos. Embora essa descrição informal do padrão de string de um endereço de e-mail possa funcionar para nós, ela não é precisa o suficiente para ser usada em um programa. Os cientistas da computação desenvolveram um modo mais formal para descrever um padrão de string: uma expressão regular, ou seja, uma string que consiste em caracteres e operadores de expressão regular. Agora, vamos aprender alguns desses operadores e como eles nos permitem definir com precisão o padrão de string desejado. A expressão regular mais simples é uma que não usa quaisquer operadores de <b>expressão regular</b>.

### Operadores de expressão regular:
<table>
    <tr>
        <th>Operador</th>
        <th>Descrição</th>
    </tr>
    <tr>
        <td><big>.</big></td>
        <td>(o ponto) tem o papel de um caractere curinga: ele combina com qualquer caractere (Unicode) 
            exceto o caractere de nova linha ('\n').</td>
    </tr>
    <tr>
        <td><big>*</big></td>
        <td>(o asterisco) combina com 0 ou mais repetições do caractere anterior</td>
    </tr>
    <tr>
        <td><big>+</big></td>
        <td>(o operador soma) combina com 1 ou mais repetições do caractere anterior</td>
    </tr>
    <tr>
        <td><big>?</big></td>
        <td>(a interrogação) combina com 0 ou 1 repetição do caractere anterior</td>
    </tr>
    <tr>
        <td><big>[]</big></td>
        <td>combina com qualquer caractere no conjunto de caracteres listados dentro dos 
            colchetes; um intervalo de caracteres pode ser especificado usando o primeiro 
            e último caracteres no intervalo e colocando '-' entre eles.</td>
    </tr>
    <tr>
        <td><big>^</big></td>
        <td>(o circunféxo) se <b>S</b> é um conjunto ou intervalo de caracteres, 
            então <var>[^S]</var> combina com qualquer caractere não em S</td>
    </tr>
    <tr>
        <td></big>|<big></td>
        <td>(o <em>pipe</em>) Se A e B são expressões regulares, A|B corresponde a qualquer 
            string que combine com A ou B.</td>
    </tr>
    <tr>
        <td><big>\</big></td>
        <td>(o <em>escape</em>) identificador de sequência de escape para especificar, por exemplo o asterisco \*, 
        a contrabarra <mark>\</mark> também pode sinalizar uma sequência especial de expressão regular:</td>
    </tr>
    <tr>
        <td><big>\d</big></td>
        <td>Combina com qualquer dígito decimal; equivalente a [0-9]</td>
    </tr>  
    <tr>
        <td><big>\D</big></td>
        <td>Combina com qualquer caractere não de dígito; equivalente a [^0-9]</td>
    </tr>
    <tr>
        <td><big>\s</big></td>
        <td>Combina com qualquer caractere de espaço em branco, incluindo o próprio espaço em branco,
            o caractere de tabulação \t, o caractere de nova linha \n e o carriage return, \r</td>
    </tr> 
    <tr>
        <td><big>\S</big></td>
        <td>Combina com qualquer caractere não de espaço em branco</td>
    </tr>
    <tr>
        <td><big>\w</big></td>
        <td>Combina com qualquer caractere alfanumérico; isso é equivalente a [a-zA-Z0-9_]</td>
    </tr>
    <tr>
        <td><big>\W</big></td>
        <td>Combina com qualquer caractere não alfanumérico; isso é equivalente a [^a-zA-Z0-9_]</td>
    </tr>    
</table>

### Módulo re da Biblioteca Padrão Python 

O módulo re na Biblioteca Padrão é a ferramenta do Python para o processamento de expressão regular. Um dos métodos definidos no módulo é o método ``findall()``, que aceita duas entradas, uma expressão regular e uma string, e retorna uma lista de todas as substrings da string de entrada à qual a expressão regular corresponde.

In [26]:
from re import findall
findall('best', 'beetbtbelt?bet, best')

['best']

In [27]:
findall('be.t', 'beetbtbelt?bet, best')

['beet', 'belt', 'best']

In [28]:
findall('be?t', 'beetbtbelt?bet, best')

['bt', 'bet']

In [29]:
findall('be*t', 'beetbtbelt?bet, best')

['beet', 'bt', 'bet']

In [30]:
findall('be+t', 'beetbtbelt?bet, best')

['beet', 'bet']

In [31]:
# Se a expressão regular combinar com duas substrings como aquela que está contida na outra,
# a função findall() combinará com a única substring mais longa:
findall('e+', 'beeeetbet bt')

['eeee', 'e']

In [32]:
# a lista retornada não contém substrings 'ee' e 'eee'. Se a expressão regular combina com duas 
# substrings sobrepostas, a função findall() retorna a da esquerda. A função findall() de fato 
# varre a string de entrada da esquerda para a direita e coleta as correspondências em uma lista na ordem encontrada
findall('[^bt]+', 'beetbtbelt?bet, best')

['ee', 'el', '?', 'e', ', ', 'es']

In [33]:
findall('[bt]+', 'beetbtbelt?bet, best')

['b', 'tbtb', 't', 'b', 't', 'b', 't']

In [34]:
# Como a expressão regular [bt]* combina com a string vazia '', a função findall() procura as substrings 
# vazias na string de entrada 'beetbtbelt?bet, best', que não estão contidas em uma substring correspondente 
# maior. Ela encontra muitas strings vazias, uma antes de cada caractere que não seja b ou t. Isso inclui a 
# substring vazia entre o primeiro b e o primeiro e, a substring vazia entre o primeiro e segundo e, e assim por diante:
findall('[bt]*', 'beetbtbelt?bet, best')

['b',
 '',
 '',
 'tbtb',
 '',
 '',
 't',
 '',
 'b',
 '',
 't',
 '',
 '',
 'b',
 '',
 '',
 't',
 '']

#### Problema Prático 11.4
Cada um dos casos listados oferece uma expressão regular e um conjunto de strings. Selecione as strings que combinam com a expressão regular. Expressão Regular Strings 
- (a) \[Hh\]ello       ello, Hello, hello 
- (b) re-?sign         re-sign, resign, re-?sign 
- (c) \[a-z\]*         aaa, Hello, F16, IBM, best 
- (d) \[^a-z\]*        aaa, Hello, F16, IBM, best 
- (e) \<.*\>             \<\h1\>, 2 \< 3, \<\<\>\>\>\>, \>\<

In [35]:
findall('[Hh]ello', 'ello, Hello, hello')

['Hello', 'hello']

In [36]:
findall('re-?sign', 'e-sign, resign, re-?sign')

['resign']

In [37]:
findall('[a-z]*', 'aaa, Hello, F16, IBM, best')

['aaa',
 '',
 '',
 '',
 'ello',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 'best',
 '']

In [38]:
findall('[^a-z]*', 'aaa, Hello, F16, IBM, best')

['', '', '', ', H', '', '', '', '', ', F16, IBM, ', '', '', '', '', '']

In [39]:
findall('<.*>', '<h1>, 2 < 3, <<>>>>, ><')

['<h1>, 2 < 3, <<>>>>, >']

In [40]:
# Para obter apenas os títulos (h1 a h6)
findall('<h[1-6]>', '<h1>, 2 < 3, <<>>>>, ><, <<h3>>,')

['<h1>', '<h3>']

#### Problema Prático 11.5
Para cada uma das descrições de padrão informais listadas ou conjuntos de strings, defina uma expressão regular que se ajuste à descrição de padrão ou combine com todas as strings no conjunto e nenhuma outra.
- (a) aac, abc, acc.
- (b) abc, xyz.
- (c) a, ab, abb, abbb, abbbb,…
- (d) Strings não vazias consistindo em letras minúsculas no alfabeto (a, b, c,…, z).
- (e) Strings contendo a substring oe.
- (f) String representando uma tag HTML de início ou fim.

In [41]:
findall('a[abc]c','aac, abc, acc')

['aac', 'abc', 'acc']

In [42]:
findall('abc|xyz','abc, xyz, aac, acc')

['abc', 'xyz']

In [43]:
findall('ab*','xyz, acb, ac7a, ab, abb, abbb, abbbb')

['a', 'a', 'a', 'ab', 'abb', 'abbb', 'abbbb']

In [44]:
findall('[a-zã]+','expressão regular para encontrar as palavras (é mais limpa')

['expressão',
 'regular',
 'para',
 'encontrar',
 'as',
 'palavras',
 'mais',
 'limpa']

In [45]:
findall('[a-zA-Z]*oe[a-zA-Z]','consideramos este problema e aqui usa uma expressão regular para combinar as palavras')

[]

In [46]:
findall('<[\w]+[^<^>]*>|</[\w]+>', '<h1>, 2 < 3, <<>>>>, ><, <<h3>> <a name="8270146"></a>')

['<h1>', '<h3>', '<a name="8270146">', '</a>']

In [47]:
findall('<[^>^<]*>', '<h1>, 2 < 3, <<>>>>, ><, <<h3>> <a name="8270146"></a>')

['<h1>', '<>', '<h3>', '<a name="8270146">', '</a>']

#### Problema Prático 11.6
Desenvolva a função ``frequency()``, que toma uma string como entrada, calcula a frequência de cada palavra na string e retorna um dicionário que mapeia palavras na string à sua frequência. Você deverá usar uma expressão regular para obter a lista de todas as palavras na string.

In [48]:
def frequency(content):
    pattern = '[a-zA-Z]+'
    words = findall(pattern, content)
    dictionary = {}
    for w in words:
        if w in dictionary:
            dictionary[w] +=1
        else:
            dictionary[w] = 1
    return dictionary

In [49]:
content = 'The pure and simple truth is rarely pure and never simple.'
frequency(content)

{'The': 1,
 'pure': 2,
 'and': 2,
 'simple': 2,
 'truth': 1,
 'is': 1,
 'rarely': 1,
 'never': 1}

Outra função útil definida no módulo re é search(). Isso também exige uma expressão regular e uma string; retorna a primeira substring que combina pela expressão regular. Você pode pensar nisso como uma versão mais poderosa do método de string find()

In [50]:
from re import search
match = search('e+', 'beetbtbelt?bet')
match.string[match.start():match.end()]

'ee'

<hr>

### Estudo de Caso: Web Crawler

Agora, vamos usar o que aprendemos neste capítulo para desenvolver um <em>web crawler</em> básico, ou seja, um programa que visita sistematicamente as páginas Web seguindo <em>hyperlinks</em>. (Os <em>Web crawlers</em> também são chamados de indexadores automáticos, robôs da Web ou simplesmente <em>bots</em>.) Toda vez que ele visitar uma página Web, nosso Web crawler analisará seu conteúdo e mostrará sua análise. O objetivo final, que veremos no próximo capítulo, é usar essa análise para criar um mecanismo de busca.

Uma técnica básica para implementar um <em>Web crawler</em> é esta: depois de completar a análise da página Web atual, o <em>Web crawler</em> analisará recursivamente cada página Web pesquisável a partir da atual com um hyperlink. Essa técnica é muito semelhante a função de análise de vírus scan() da Seção 10.2. A função scan() tomou como entrada uma pasta, colocou o conteúdo da pasta em uma lista e depois chamou recursivamente a si mesma sobre cada item na lista. Nosso Web crawler deverá tomar como entrada um URL, colocar os URLs HTTP de hyperlink contidos na página Web associada em uma lista, e depois chamar a si mesma recursivamente sobre cada item na lista:

In [51]:
def crawl1(url): 
    'crawler Web recursiva que chama analyze() em cada página Web' 
    # analyze() retorna uma lista de URLs de hyperlink no URL da  página Web 
    links = analyze(url) 
    # continua recursivamente a verificação de cada link em links 
    for link in links:
        try:               # bloco try porque o link pode não ser um arquivo HTML válido
            crawl1(link)
        except:            # se uma exceção for lançada
            pass           # ignora e prossegue.
        
        

def analyze(url): 
    '''retorna a lista de links http, em formato absoluto, 
    na página Web com URL url''' 
    print('Visitando', url)           # para teste 
    # obtém links na página Web 
    content = urlopen(url).read().decode()
    collector = Collector(url) 
    collector.feed(content) 
    urls = collector.getLinks()       # urls é a lista de links
    # análise do conteúdo da página Web ainda a ser feita 
    return urls

In [None]:
# Esse trava o computador *** Não rodar!!
crawl1('http://reed.cs.depaul.edu/lperkovic/one.html')

### Crawler Recursivo, Versão 0.2 
Em nossa segunda implementação do crawler, usamos um objeto de conjunto para armazenar os URLs das páginas Web visitadas. Como esse conjunto deverá ser acessível a partir do namespace de cada chamada recursiva, definimos o conjunto no namespace global:

In [52]:
visited = set()
# inicializa visited como um conjunto vazio
def crawl2(url):
    '''um Web crawler recursivo que chama analyze()
    sobre cada página Web visitada''' 
    # inclui url para conjunto de páginas visitadas
    global visited       # embora não necessário, avisa ao programador
    visited.add(url)
    # analyze() retorna uma lista de URLs de hyperlink no url da página Web 
    links = analyze(url)
    # continua a rastejar recursivamente cada link em links
    for link in links:
        # segue o link somente se não foi visitado 
        if link not in visited:
            try:
                crawl2(link)
            except:
                pass

In [53]:
crawl2('http://reed.cs.depaul.edu/lperkovic/one.html')

Visitando http://reed.cs.depaul.edu/lperkovic/one.html
Visitando http://reed.cs.depaul.edu/lperkovic/two.html
Visitando http://reed.cs.depaul.edu/lperkovic/four.html
Visitando http://reed.cs.depaul.edu/lperkovic/five.html
Visitando http://reed.cs.depaul.edu/lperkovic/three.html


A técnica que a versão 0.2 do crawler utiliza para visitar as páginas Web é denominada **travessia primeiro na profundidade**. Travessia é sinônimo de crawl para os nossos propósitos. A designação primeiro na profundidade se refere ao fato de que, nessa técnica, o crawler pode rapidamente se afastar do início do processo: o crawler visita as páginas distantes four.html e five.html antes de visitar a página vizinha three.html. O problema com a travessia primeiro na profundidade é que pode levar muito tempo para que uma página vizinha seja visitada. Por exemplo, se a página five.html tivesse um link para www.yahoo.com ou www.google.com, é pouco provável que o crawler sequer visitasse a página three.html. Por esse motivo, os crawlers usados pelo Google e outros provedores de busca utilizam uma travessia primeiro na largura, que garante que as páginas sejam visitadas na ordem de distância (o número de links) a partir da página Web inicial

#### Análise de Conteúdo da Página Web

A implementação atual da função ``analyze()`` analisa o conteúdo de uma página Web com o único propósito de encontrar URLs de hyperlink nela. Nosso objetivo original era fazer mais do que isso: a função ``analyze()`` deveria analisar o conteúdo de cada página Web e exibir essa análise. Agora, acrescentamos essa funcionalidade adicional à função ``analyze()``, para concluir sua implementação. Decidimos que a análise da página Web consiste em calcular (1) a frequência de cada palavra no conteúdo da página Web (ou seja, nos dados de texto) e (2) a lista de links contidos na página Web. Já calculamos a lista de links. Para calcular as frequências das palavras, podemos usar a função ``frequency()`` que desenvolvemos no Problema Prático 11.6. Aqui está, então, nossa implementação final

In [64]:
def analyze(url):
    '''exibe a frequência de cada palavra na página Web url
    e exibe e retorna a lista de links http, em formato absoluto'''
    
    print('\nVisitando', url)            # para teste
    
    # obtém links na página Web
    content = urlopen(url).read().decode()
    collector = Collector(url)
    collector.feed(content)
    urls = collector.getLinks()        # obtém lista de links
    
    # calcula frequências de palavras
    content = collector.getData()      # obtém dados de texto como string
    freq = frequency(str(content))     # mostra frequência de cada palavra na página visitada - frequency recebe string
    print('\n{:50} {:10} {:5}'.format('URL', 'palavra', 'quant '))
    for word in freq:
        print('{:50} {:10} {:5}'.format(url, word, freq[word]))
        
    # mostra links http encontrados na página Web
    print('\n{:50} {:10}'.format('URL', 'link'))
    for link in urls:
        print('{:50} {:10}'.format(url, link))
    return urls

In [65]:
crawl2('http://reed.cs.depaul.edu/lperkovic/one.html')


Visitando http://reed.cs.depaul.edu/lperkovic/one.html

URL                                                palavra    quant 
http://reed.cs.depaul.edu/lperkovic/one.html       Beijing        3
http://reed.cs.depaul.edu/lperkovic/one.html       Paris          5
http://reed.cs.depaul.edu/lperkovic/one.html       Chicago        5

URL                                                link      
http://reed.cs.depaul.edu/lperkovic/one.html       http://reed.cs.depaul.edu/lperkovic/two.html
http://reed.cs.depaul.edu/lperkovic/one.html       http://reed.cs.depaul.edu/lperkovic/three.html


#### Problema Prático 11.7
Desenvolva novamente o segundo crawler como uma classe ``Crawler2``. O conjunto visitado deverá ser encapsulado como uma variável de instância do objeto ``Crawler2``, em vez de uma variável global.
- <var>crawler2 = Crawler2()</var>
- <var>crawler2.crawl('http://reed.cs.depaul.edu/lperkovic/one.html')</var>

In [66]:
class Crawler2:
    'um Web crawler '
    def __init__(self):
        'inicializa visited como um conjunto vazio'
        self.visited = set()
        
    def crawl(self, url):
        '''chama analyze() sobre página Web url e chama a si mesma        
        sobre cada link para uma página Web não visitada''' 
        links = analyze(url)
        self.visited.add(url)
        for link in links:
            if link not in self.visited:
                try:
                    self.crawl(link)
                except:
                    pass

In [67]:
crawler2 = Crawler2()
crawler2.crawl('http://reed.cs.depaul.edu/lperkovic/one.html')


Visitando http://reed.cs.depaul.edu/lperkovic/one.html

URL                                                palavra    quant 
http://reed.cs.depaul.edu/lperkovic/one.html       Beijing        3
http://reed.cs.depaul.edu/lperkovic/one.html       Paris          5
http://reed.cs.depaul.edu/lperkovic/one.html       Chicago        5

URL                                                link      
http://reed.cs.depaul.edu/lperkovic/one.html       http://reed.cs.depaul.edu/lperkovic/two.html
http://reed.cs.depaul.edu/lperkovic/one.html       http://reed.cs.depaul.edu/lperkovic/three.html

Visitando http://reed.cs.depaul.edu/lperkovic/two.html

URL                                                palavra    quant 
http://reed.cs.depaul.edu/lperkovic/two.html       Bogota         3
http://reed.cs.depaul.edu/lperkovic/two.html       Paris          1
http://reed.cs.depaul.edu/lperkovic/two.html       BeijingBeijing     1

URL                                                link      
http://reed.cs.d

### Resumo do Capítulo
Neste capítulo, apresentamos o desenvolvimento de aplicações de computador que <mark>buscam e coletam dados de documentos próximos e distantes</mark>. Em particular, focalizamos o acesso, a busca e a coleta de dados hospedados na **World Wide Web**.

Hoje, a Web certamente é uma das aplicações mais importantes em execução na Internet. Nos últimos 20 anos, a Web revolucionou o modo como trabalhamos, fazemos compras, conversamos e nos divertimos. Ela permite a comunicação e o compartilhamento de informações em uma escala sem precedentes, e tornou-se um enorme repositório de dados. Esses dados, por sua vez, oferecem uma oportunidade para o desenvolvimento de novas aplicações de computador, que coletam e processam os dados e produzem informações valiosas. Este capítulo apresenta as tecnologias Web, as APIs para Web na Biblioteca Padrão Python e os algoritmos que podem ser usados para desenvolver essas aplicações.

Apresentamos as principais tecnologias Web: URLs, HTTP e HTML. Também apresentamos as APIs da Biblioteca Padrão Python para acessar recursos na Web (módulo urllib.request) e para processar páginas Web (módulo html.parser). Vimos como usar as duas APIs para baixar um arquivo-fonte HTML de página Web e analisá-lo para obter o conteúdo da página Web.

Para processar o conteúdo de uma página Web ou de qualquer outro documento de texto, é útil termos ferramentas para reconhecer padrões de string nos textos. Este capítulo apresentou essas ferramentas: expressões regulares e o módulo re da Biblioteca Padrão.

Aplicamos o material abordado no capítulo para desenvolver um **Web crawler** que visita páginas Web, uma por vez, seguindo os hyperlinks. O Web crawler usa um algoritmo recursivo fundamental para a busca, denominado ,<mark>busca primeiro na profundidade</mark>.

<hr>

## Atividade Avaliativa - Semana 6 (perguntas 8 e 9)

In [1]:
from urllib.request import urlopen 
resp = urlopen('http://www.google.com') 
for field in resp.getheaders(): 
    print(field) 

('Date', 'Mon, 16 Nov 2020 02:14:06 GMT')
('Expires', '-1')
('Cache-Control', 'private, max-age=0')
('Content-Type', 'text/html; charset=ISO-8859-1')
('P3P', 'CP="This is not a P3P policy! See g.co/p3phelp for more info."')
('Server', 'gws')
('X-XSS-Protection', '0')
('X-Frame-Options', 'SAMEORIGIN')
('Set-Cookie', '1P_JAR=2020-11-16-02; expires=Wed, 16-Dec-2020 02:14:06 GMT; path=/; domain=.google.com; Secure')
('Set-Cookie', 'NID=204=I5EG9a6J6YadcRDwZkjYGs3j8F9nZkny67hh0uo2ed8UqMduHDkd0Tgoz3xiigAaEVS-lRUO_n9-3DAxT0MFgcyV1RqtL4ysqZ40kbUY3AutjB9KEH2KFQPEKUmwNfBPTh2F1UF7AglMF8xtff6hf7QFGYohq44JHf6CBcXphoo; expires=Tue, 18-May-2021 02:14:06 GMT; path=/; domain=.google.com; HttpOnly')
('Accept-Ranges', 'none')
('Vary', 'Accept-Encoding')
('Connection', 'close')
('Transfer-Encoding', 'chunked')


In [2]:
type(resp)

http.client.HTTPResponse

In [3]:
from urllib.request import urlopen 
 
resp = urlopen('http://www.google.com') 
text = resp.read().decode('latin-1') 
print(text) 

<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="pt-BR"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/images/branding/googleg/1x/googleg_standard_color_128dp.png" itemprop="image"><title>Google</title><script nonce="0X2fvSDjdnzy8Ddgsjafeg==">(function(){window.google={kEI:'8-CxX7DJDYfL5OUP78mn2AI',kEXPI:'0,202162,1100131,51454,5662,730,224,5104,207,3204,10,1226,364,1499,611,206,383,246,5,1354,648,3451,315,3,65,595,173,217,263,21,867,113,453,318,1405,1683,7,868,1116301,1197714,569,7,328977,13677,4855,32691,16115,28684,9188,8384,4858,1362,9290,3029,2815,1924,7,11026,1808,4020,978,7931,5297,2054,920,873,4192,6430,14527,236,4281,2778,920,2276,8,3685,704,1279,2212,241,289,149,1103,840,517,1522,157,4101,312,1137,2,2063,606,2023,2297,1947,2229,93,330,1282,16,2927,2246,1813,1787,3227,2845,7,4808,1,7545,4454,642,605,6934,337,2038,2999,3407,908,2,3555,2397,7468,3277,3,346,230,970,865,2,2500,2123,148,5992,2340,5643,4,1528,2304