## Acessando páginas web com urllib
***

urllib permite que acessemos sites na internet, além de poder acessar arquivos e realizar pedidos a determinados domínios.

***

In [1]:
from urllib import request, parse, error

In [2]:
# Requisita que se abra um website
google = "https://www.google.com"
# retona a página no formato de um objeto file
pagina = request.urlopen(google)

In [3]:
# A página é como um objeto file, por isso
# podemos usar métodos semelhantes como o read
# para exibir todo o conteúdo da página.
print(pagina.read())

b'<!doctype html><html itemscope="" itemtype="http://schema.org/WebPage" lang="pt-BR"><head><meta content="text/html; charset=UTF-8" http-equiv="Content-Type"><meta content="/logos/doodles/2020/thank-you-public-health-workers-and-to-researchers-in-the-scientific-community-6753651837108753-law.gif" itemprop="image"><meta content="A todos os profissionais da sa\xfade e aos pesquisadores da comunidade cient\xedfica, obrigado\xa0" property="twitter:title"><meta content="A todos os profissionais da sa\xfade e aos pesquisadores da comunidade cient\xedfica, obrigado #GoogleDoodle #profissionaisdasaude" property="twitter:description"><meta content="A todos os profissionais da sa\xfade e aos pesquisadores da comunidade cient\xedfica, obrigado #GoogleDoodle #profissionaisdasaude" property="og:description"><meta content="summary_large_image" property="twitter:card"><meta content="@GoogleDoodles" property="twitter:site"><meta content="https://www.google.com/logos/doodles/2020/thank-you-public-heal

***

Mais do que isso podemos até mesmo reter uma página web ou alguma imagem.

***

In [4]:
# Vai acessar a imagem de um determinado endereço e armazenar no arquivo .jpg inserido.
request.urlretrieve("http://www.gunnerkrigg.com//comics/00000001.jpg", "00000001.jpg")

# Faz a mesma coisa:
# file = open('00000001.jpg', 'wb')
# file.write(request.urlopen('http://www.gunnerkrigg.com//comics/00000001.jpg').read())
# file.close()

('00000001.jpg', <http.client.HTTPMessage at 0x7f8909150910>)

In [5]:
import os
os.remove("./00000001.jpg")

***

Além de podermos obter o HTML que contém uma determinada página da web podemos fazer requirementos a um determinado domínio. Por exemplo, é possível realizar uma busca no google utilizando https://www.google.com/?#q=pesquisa. Da mesma forma podemos fazer pesquisas usando o urllib.parse + urllib.request.

***

In [6]:
# Vamos acessar o site python programming e realizar uma busca
url = "http://pythonprogramming.net"

In [7]:
# Nesta busca vamos buscar pela palavra 'basics' utilizando o método Search()
valores = {'s': 'basics', 'submit': 'Search'}

In [8]:
# Em seguida vamos processar e codificar o nosso requerimento
data = parse.urlencode(valores)
print(data)
data = data.encode('utf-8')
print(data)

s=basics&submit=Search
b's=basics&submit=Search'


In [9]:
# Em seguida, vamos efetivamente requirir uma resposta
requisicao = request.Request(url, data) # gera o endereço
pagina = request.urlopen(requisicao) # abre a página

In [10]:
# Vamos ler e imprimir essa resposta
resposta = pagina.read()
print(resposta)

b'<html>\n\t<head>\n\n\t\t<!--\n\t\tpalette:\n\t\tdark blue: #003F72\n\t\tyellow: #FFD166\n\t\tsalmon: #EF476F\n\t\toffwhite: #e7d7d7\n\t\tLight Blue: #118AB2\n\t\tLight green: #7DDF64\n\t\t-->\n\n\t\t<meta name="viewport" content = "width=device-width, initial-scale=1.0">\n\t\t<title>Python Programming Tutorials</title>\n\n\t\t<meta name="description" content="Python Programming tutorials from beginner to advanced on a massive variety of topics. All video and text tutorials are free.">\n\n\t\t<link rel="shortcut icon" href="/static/favicon.ico">\n\t\t<link rel="stylesheet" href="/static/css/materialize.min.css">\n        <link href="https://fonts.googleapis.com/icon?family=Material+Icons" rel="stylesheet">\n        <meta name="google-site-verification" content="3fLok05gk5gGtWd_VSXbSSSH27F2kr1QqcxYz9vYq2k" />\n        <link rel="stylesheet" type="text/css" href="/static/css/bootstrap.css">\n\n\n\t\t  <!-- Compiled and minified CSS -->\n\n\t\t<!-- Compiled and minified JavaScript -->\n\

***

Ao invéz disso para realizar um requerimento desse jeito nós precisamos mandar informações para o website sobre nós como o nosso endereço, o browser que estamos usando. Todas essas informações ficam contidas num bloco de informações chamado 'headers'

***

In [11]:
# Pega o endereço do google
google = 'http://www.google.com/search?#q=pesquisa'

In [12]:
try:
    # Vamos colocar nossas informações dentro do header (User-Agent - identifica o browser que to utilizando)
    headers = {}
    headers['User-Agent'] = "Mozilla/5.0 (X11; Linux i686) AppleWebKit/537.17 (KHTML, like Gecko) Chrome/24.0.1312.27 Safari/537.17"
    # Isso é pra mostrar que você é um browser se não ele não te da acesso a certas páginas
    
    
    # Vamos novamente realizar um requerimentoo, entretando
    # desta vez vamos passar os headers para realiza-lo
    requisicao = request.Request(google, headers=headers)
    
    # Vamos obter a resposta
    pagina = request.urlopen(requisicao)
    resposta = pagina.read()
    
    # E desta vez vamos colocar toda a informação dentro de um arquivo
    arquivo = open('com_headers.html', 'w')
    arquivo.write(str(resposta))
    arquivo.close()
except Exception as e:
    print(str(e))

In [13]:
import os
os.remove("./com_headers.html")